Entity-linking-task

目標・意義
政治家の発言の信憑性を判断するためには,発言の根拠となる一次情報が存在を明らかにする必要がある.一次情報は,過去の会議録,法令集,文書等に記載されている可能性があり,これを現在の発言と結びつけることで,フェイクニュース検出やファクトチェックに役に立つと考えられる.Entity Linkingサブタスクでは,参照すべき一次情報が,会議録外の知識ベース・言語資源に集約されていることを想定して,議会での発言とwikipediaを結びつけることを目指す.

対象範囲

議会会議録に含まれる政治家の発言のうち,法律名を対象とする.
法律名は正式名称の文字数が長いことが多く,話しことばにおいては,揺れや曖昧性が生じる.例えば、下記の発言には「特定複合観光施設区域整備法案」「IR整備法案」「カジノ法案」のように異なる表記で法律名が記述されている.

発言に含まれる異なる表記の法律名の例
特定複合観光施設区域整備法案、いわゆるIR整備法案について、最近の世論調査では、カジノ法案の成立は不要としている国民の方々七六%、自民党の支持の方々でも六四%に及びます。

他の発言においては「IR推進法」という表記が見られるが,これは異なる法律を指すものである.また,「IR法」という曖昧な表記で記述されることがある.本サブタスクでは,まず,会議録から法律名のメンション抽出を行い,次に,表記の揺れや曖昧性を解消して,Wikipedia(知識ベース)への結びつけを行う.

 

入力,出力,評価

 

データ構造

ファイル形式(TSV形式)の例

例文

私␣の␣方␣から␣は␣、␣IR␣法␣の␣導入␣に␣伴う␣変化␣を␣一␣つ␣の␣キー␣ワード␣に␣三␣つ␣の␣質問␣を␣さ␣せ␣て␣いただき␣たい␣と␣思っ␣て␣おり␣ます␣。

 

参加申込・ダウンロード方法

ダウンロードは、NTCIR15の申込終了後になります。データセットダウンロードまでの手順は次の通りです。

  1.  NTCIR15 の参加申込

 

Formal run データセットの出題数とファイルサイズ

Answer sheet Number of morphemes File size
Training 260,366 2.7MB
Test 209,862 1.9MB

 

Formal run データセットのファイル一覧(参加申込後にダウンロードできます)

|--AnswerSheet
| |--PoliInfo2-EntityLinking-JA-Formal-Test.tsv
| |--PoliInfo2-EntityLinking-JA-Formal-Training.tsv
|--WikipediaTitlePageID
| |--wikipedia_title_pageid_20191201.txt  (Wikipedia 2019.12.01 のTitleとPageIDをタブ区切り)

Leader Boardへの提出方法