information

データセット更新のお知らせ

2020.05.24

Stance Classification task のデータセット更新のお知らせです。

データセット更新に伴い、Leader Board も更新します。

 

<<お礼>>
このたび、東京工業大学の笹沢様より、データの誤りについてご指摘を頂きました。

笹沢様に感謝申し上げます。ありがとうございました。

 

主な変更点

  1. IDの修正
    •  バージョン番号を付与しました。
      • 例. "ID":"PoliInfo2-StanceClassification-JA-Dry-Test-v20200522-00001"
  2. 議案番号の修正
    • 議案番号に重複がある誤りを修正しました。
  3. 議案名の修正
  4. 会派名の修正
    1. 空白、タブ、<BR >などを取り除きました。

 

データセットの作成方法

  1. 都議会だよりに含まれる会派の表記をそのまま利用し「会派の表記揺れ」は対応していません。
  2. 「賛成一部反対」については「賛成」としています。
  3. 日付が会議録から取得できない場合には委員会の日付を空欄としています。
    • HTMLファイルのProceedingTitleが同じ場合には、日付を付与しています。

 

データセットに含まれる問題数

修正前

  •  Training 2,632
  •  Test 481

修正後

  •  Training 2,622
  •  Test 480

 

Leader Board について

明後日(2020-05-26)までに、
新しいデータセットに対する投稿が行えるように致します。

今後も、データの誤りがある場合には、お知らせください。
どうぞよろしくお願い致します。