Stance Classification task のデータセット更新のお知らせです。
データセット更新に伴い、Leader Board も更新します。
<<お礼>>
ご指摘頂いたみなさま
- 東京工業大学 笹沢様、
- RICOH 勇様、
- 茨城大学 佐々木様
ありがとうございました。
主な変更点
- IDの修正
- バージョン番号を付与しました。
- 例. "ID":"PoliInfo2-StanceClassification-JA-Dry-Test-v20200605-00001"
- バージョン番号を付与しました。
- 議案名の修正
- 曖昧性のある議案名を問題から取り除きました。
- 例. 平成20年第3回定例会 各会派等の議案への賛否 の「東京都政務調査費の交付に関する条例」
- 曖昧性のある議案名を問題から取り除きました。
- 議案番号の修正
- 議案番号の誤りを修正しました。
- 例. 「第第二百三号議案百二十九号議」→ 「第百二十九号議案」
- 議案番号の誤りを修正しました。
注意:ご指摘頂きましたが、都議会だより、都議会会議録のそのままの表記を利用することとしているため、変更しない箇所もあります。
データセットの作成方法
- 都議会だよりに含まれる会派の表記をそのまま利用しています。「会派の表記揺れ」は対応していません。
- 会派の表記揺れ
- 例. "1/2の会" "½の会"
- SpeakerListの名前について
- 都議会だより記載されている名前だけを利用します。
- 議題の誤り
- 例. 漢数字「二」とカタカナ「ニ」
- 平成十九年東京都議会会議録第一号 第百ニ十八 第百ニ十八号議案 ← 「ニ」
- 例. 漢数字「二」とカタカナ「ニ」
- 会派の表記揺れ
- 「賛成一部反対」については「賛成」としています。
- 日付が会議録から取得できない場合には委員会の日付を空欄としています。
- HTMLファイルのProceedingTitleが同じ場合には、日付を付与しています。
資源の公開について
- QALabPoliInfo2に関連するプログラムや辞書などを公開しています。
- このページでは、参加者からご提供いただいた、情報を公開しています。
- 現在の公開物は下記の通りです。
- 議員名/所属会派辞書 (提供者:akbl)
- ルールベース賛否予測プログラム (提供者:akbl)
データセットに含まれる問題数
修正前(Ver情報なし)
- Training 2,632
- Test 481
v20200522
- Training 2,622
- Test 480
v20200605
- Training 2,622
- Test 479
Leader Board について
明後日(2020-06-10)までに、
新しいデータセットに対する投稿が行えるように致します。
今後も、データの誤りがある場合には、お知らせください。
どうぞよろしくお願い致します。