目標・意義
政治家の発言の信憑性を判断するためには,政治課題に関する議論がどのように行われているのか,知る必要があり,議論をしている相手の発言や文脈を考慮しなければならない.政治課題に関する議論は,議会において行われており,議会会議録として質問や答弁が残されている.しかしながら,議会会議録は,発言を書き起こした文書であり,まとめられておらず,読みづらいという問題がある.特に,東京都議会をはじめとする多くの地方議会では,一問一答方式ではなく,一括質問一括答弁方式がとられており,質問と答弁が離れた位置に存在する.また,質問に対して,知事が答弁する場合と,総務部長や教育長のような知事以外の出席者が答弁する場合がある.さらには,知事による答弁を補足する形で複数の出席者が答弁することもある.従って,質疑(質問と答弁の組)を要約するためには,議論の構造を考慮することが求められる.そこで,Dialog Summarization では地方議会における「議員の質問」と「知事側の答弁」という対話構造を考慮しながら要約することを目標としている.
データセットの構築
東京都議会における一般質問および代表質問の概要は都議会だよりに掲載されている.都議会だよりは,議会で記載された内容が議会事務局の職員により作られていることから,人手により作成された「正解の要約」とみなすことができる.また,都議会だよりでは,質問項目ごとに質問者と答弁者が示されており,質問とそれに対応する答弁が簡潔にまとめられている.そこで,都議会だよりに記された質疑の要約をDialog Summarization の正解として用いることとする.図の例では,左側が要約前の議会会議録であり,右側に黄色いで示した範囲の文字列が正解データとなる.Dialog Summarizationでは,東京都議会会議録(定例会)に加えて,機械処理が容易なjson形式で,要約に必要な情報を含んだ出題ファイルを提供する.
入力,出力,評価
データ構造 (東京都議会会議録)
Field name | Description |
ID | 識別子 (市町村コード_年月日_行数) |
Line | 行番号 |
Prefecture | 都道府県名 |
Volume | 回、第一回定例会 |
Number | 号、何日目 |
Year | 年 |
Month | 月 |
Day | 日 |
Title | 表題 |
Speaker | 発言者名 |
Utterance | 発言 |
データ構造 (出題ファイル)
Field name | Description |
ID | 識別番号 |
Date | 日付 |
Prefecture | 都道府県 |
Meeting | 会議名 |
MainTopic | メイントピック |
QuestionSpeaker | 質問者 |
SubTopic | サブトピック |
QuestionSummary | 質問の要約 |
QuestionLength | 質問の字数制限 |
QuestionStartingLine | 質問の開始行 |
QuestionEndingLine | 質問の終了行 |
AnswerSpeaker | 答弁者 ※リスト型 |
AnswerSummary | 答弁の要約 ※リスト型 |
AnswerLength | 答弁の字数制限 |
AnswerStartingLine | 答弁の開始行 ※リスト型 |
AnswerEndingLine | 答弁の終了行 ※リスト型 |
Json (東京都議会会議録の例)
{
"ID":"130001_230617_2",
"Line":2,"Prefecture":"東京都",
"Volume":"平成23年_第2回",
"Number":"1",
"Year":23,
"Month":6,
"Day":17,
"Title":"平成23年_第2回定例会(第7号)",
"Speaker":"和田宗春",
"Utterance":"ただいまから平成二十三年第二回東京都議会定例会を開会いたします。"
},
Json (出題ファイルの例)
PoliInfo2-DialogSummarization-JA-Dry-Training-Segmented ※開始行、終了行が付与されているバージョン
[
{
"AnswerEndingLine": [
532
],
"AnswerLength": [
50
],
"AnswerSpeaker": [
"知事"
],
"AnswerStartingLine": [
528
],
"AnswerSummary": [
"全国の先頭に立ち刻苦する被災地を支援するのは当然。今後も強力に後押しする。"
],
"Date": "2011-06-23",
"ID": "PoliInfo2-DialogSummarization-JA-Dry-Training-Segmented-00001",
"MainTopic": "東京の総合防災力を更に高めよ<br>環境に配慮した都市づくりを",
"Meeting": "平成23年第2回定例会",
"Prefecture": "東京都",
"QuestionEndingLine": 276,
"QuestionLength": 50,
"QuestionSpeaker": "山下太郎(民主党)",
"QuestionStartingLine": 266,
"QuestionSummary": "被災地が真に必要とする支援に継続して取り組むべき。知事の見解は。",
"SubTopic": "東日本大震災"
}
]
PoliInfo2-DialogSummarization-JA-Dry-Training-Unsegmented ※開始行と終了行が付与されていないバージョン
[
{
"AnswerEndingLine": [
0
],
"AnswerLength": [
150
],
"AnswerSpeaker": [
"知事"
],
"AnswerStartingLine": [
0
],
"AnswerSummary": [
"〔1〕自己改革の取組や中長期的視点での基金や都債の活用等堅実な財政の舵取りを行い、世界一の都市東京の実現に取り組む。〔2〕新しいビジョンの速やかな策定や公約のうちすぐに始められるものを予算に追加した。"
],
"Date": "2014-03-04",
"ID": "PoliInfo2-DialogSummarization-JA-Dry-Training-Unsegmented-00001",
"MainTopic": "東京を世界で一番の都市に!<br>次の時代にも輝き続ける東京を",
"Meeting": "平成26年第1回定例会",
"Prefecture": "東京都",
"QuestionEndingLine": 0,
"QuestionLength": 50,
"QuestionSpeaker": "吉原修(自民党)",
"QuestionStartingLine": 0,
"QuestionSummary": "〔1〕公約実現に向けた財政運営は。〔2〕26年度予算の約77億円の事業追加の考え方は。",
"SubTopic": "財政"
},
]
参加申込・ダウンロード方法
ダウンロードは、NTCIR15の申込終了後になります。データセットダウンロードまでの手順は次の通りです。
Formal run データセットの出題数とファイルサイズ
Answer sheet | Number of questions | File size |
Training with segment | 438 | 414KB |
Training without segment | 325 | 292KB |
Test | 254 | 161KB |
Formal run データセットのファイル一覧(参加申込後にダウンロードできます)
|--AnswerSheet
| |--PoliInfo2-DialogSummarization-JA-Formal-Test.json (評価データ、出題数 254, ファイルサイズ 161KB)
| |--PoliInfo2-DialogSummarization-JA-Formal-Training-Segmented.json (学習用データ対応付あり、出題数 438, ファイルサイズ 414KB)
| |--PoliInfo2-DialogSummarization-JA-Formal-Training-Unsegmented.json (学習用データ対応付なし、出題数 325, ファイルサイズ 292KB)
|--TokyoMetropolitanAssemblyMinutes
| |--Pref13_tokyo.json (東京都議会会議録データ、ファイルサイズ 42MB)
Leader Boardへの提出方法