information

データセット更新のお知らせ (2)

2020.06.08

Stance Classification task のデータセット更新のお知らせです。

データセット更新に伴い、Leader Board も更新します。

<<お礼>>
ご指摘頂いたみなさま

  • 東京工業大学 笹沢様、
  • RICOH 勇様、
  • 茨城大学 佐々木様

ありがとうございました。

 

主な変更点

  1. IDの修正
    •  バージョン番号を付与しました。
      • 例. "ID":"PoliInfo2-StanceClassification-JA-Dry-Test-v20200605-00001"
  2. 議案名の修正
  3. 議案番号の修正
    • 議案番号の誤りを修正しました。
      • 例. 「第第二百三号議案百二十九号議」→ 「第百二十九号議案」

注意:ご指摘頂きましたが、都議会だより、都議会会議録のそのままの表記を利用することとしているため、変更しない箇所もあります。

 

データセットの作成方法

  1. 都議会だよりに含まれる会派の表記をそのまま利用しています。「会派の表記揺れ」は対応していません。
    1. 会派の表記揺れ
      • 例.  "1/2の会" "&#189;の会"
    2. SpeakerListの名前について
      • 都議会だより記載されている名前だけを利用します。
    3. 議題の誤り
  2. 「賛成一部反対」については「賛成」としています。
  3. 日付が会議録から取得できない場合には委員会の日付を空欄としています。
    • HTMLファイルのProceedingTitleが同じ場合には、日付を付与しています。

 

資源の公開について

 

データセットに含まれる問題数

修正前(Ver情報なし)

  •  Training 2,632
  •  Test 481

v20200522

  •  Training 2,622
  •  Test 480

v20200605

  •  Training 2,622
  •  Test 479

 

Leader Board について

明後日(2020-06-10)までに、
新しいデータセットに対する投稿が行えるように致します。

今後も、データの誤りがある場合には、お知らせください。
どうぞよろしくお願い致します。