目標・意義
政治家の発言の信憑性を判断するためには,発言の根拠となる一次情報が存在を明らかにする必要がある.一次情報は,過去の会議録,法令集,文書等に記載されている可能性があり,これを現在の発言と結びつけることで,フェイクニュース検出やファクトチェックに役に立つと考えられる.Entity Linkingサブタスクでは,参照すべき一次情報が,会議録外の知識ベース・言語資源に集約されていることを想定して,議会での発言とwikipediaを結びつけることを目指す.
対象範囲
議会会議録に含まれる政治家の発言のうち,法律名を対象とする.
法律名は正式名称の文字数が長いことが多く,話しことばにおいては,揺れや曖昧性が生じる.例えば、下記の発言には「特定複合観光施設区域整備法案」「IR整備法案」「カジノ法案」のように異なる表記で法律名が記述されている.
発言に含まれる異なる表記の法律名の例
「特定複合観光施設区域整備法案、いわゆるIR整備法案について、最近の世論調査では、カジノ法案の成立は不要としている国民の方々七六%、自民党の支持の方々でも六四%に及びます。
他の発言においては「IR推進法」という表記が見られるが,これは異なる法律を指すものである.また,「IR法」という曖昧な表記で記述されることがある.本サブタスクでは,まず,会議録から法律名のメンション抽出を行い,次に,表記の揺れや曖昧性を解消して,Wikipedia(知識ベース)への結びつけを行う.
入力,出力,評価
データ構造
ファイル形式(TSV形式)の例
例文
私␣の␣方␣から␣は␣、␣IR␣法␣の␣導入␣に␣伴う␣変化␣を␣一␣つ␣の␣キー␣ワード␣に␣三␣つ␣の␣質問␣を␣さ␣せ␣て␣いただき␣たい␣と␣思っ␣て␣おり␣ます␣。
参加申込・ダウンロード方法
ダウンロードは、NTCIR15の申込終了後になります。データセットダウンロードまでの手順は次の通りです。
Formal run データセットの出題数とファイルサイズ
Answer sheet | Number of morphemes | File size |
Training | 260,366 | 2.7MB |
Test | 209,862 | 1.9MB |
Formal run データセットのファイル一覧(参加申込後にダウンロードできます)
|--AnswerSheet
| |--PoliInfo2-EntityLinking-JA-Formal-Test.tsv
| |--PoliInfo2-EntityLinking-JA-Formal-Training.tsv
|--WikipediaTitlePageID
| |--wikipedia_title_pageid_20191201.txt (Wikipedia 2019.12.01 のTitleとPageIDをタブ区切り)
Leader Boardへの提出方法