Stance Classification task のデータセット更新のお知らせです。
データセット更新に伴い、Leader Board も更新します。
<<お礼>>
このたび、東京工業大学の笹沢様より、データの誤りについてご指摘を頂きました。
笹沢様に感謝申し上げます。ありがとうございました。
主な変更点
- IDの修正
- バージョン番号を付与しました。
- 例. "ID":"PoliInfo2-StanceClassification-JA-Dry-Test-v20200522-00001"
- バージョン番号を付与しました。
- 議案番号の修正
- 議案番号に重複がある誤りを修正しました。
- 議案名の修正
- 曖昧性のある議案名を問題から取り除きました。
- 例. 平成14年第1回定例会 各会派等の議案への賛否 の「東京都駐車場条例」
- 曖昧性のある議案名を問題から取り除きました。
- 会派名の修正
- 空白、タブ、<BR >などを取り除きました。
データセットの作成方法
- 都議会だよりに含まれる会派の表記をそのまま利用し「会派の表記揺れ」は対応していません。
- 「賛成一部反対」については「賛成」としています。
- 日付が会議録から取得できない場合には委員会の日付を空欄としています。
- HTMLファイルのProceedingTitleが同じ場合には、日付を付与しています。
データセットに含まれる問題数
修正前
- Training 2,632
- Test 481
修正後
- Training 2,622
- Test 480
Leader Board について
明後日(2020-05-26)までに、
新しいデータセットに対する投稿が行えるように致します。
今後も、データの誤りがある場合には、お知らせください。
どうぞよろしくお願い致します。