カテゴリー
研究

複雑な議事録から政策に対する姿勢を分析する

2024年3月11日~15日に神戸国際会議場で行われた言語処理学会第30回年次大会(NLP2024)において、学部4年の尾崎 慎太郎が、「国会議事録を使用した政党ごとのスタンス変遷の分析」という題目で口頭発表を行いました。


論文の情報

尾崎 慎太郎, 横山大作. 国会議事録を使用した政党ごとのスタンス変遷の分析. 言語処理学会 第30回年次大会.pp. 2487-2492, 2024.
@inproceedings{ozaki_yokoyama_2024,
  author    = {尾崎 慎太郎 and 横山大作},
  title     = {国会議事録を使用した政党ごとのスタンス変遷の分析},
  booktitle = {言語処理学会 第30回年次大会},
  pages     = {2487--2492},
  year      = {2024},
}

論文はこちら

研究内容について

筆者は「国会議事録を使用した政党ごとのスタンス変遷の分析」というテーマで発表しました。
昨今、多くの若者が選挙に参加しないことが問題として挙がっているかと思います。ここに目をつけ、Web上にある国会議事録を使用して、政党がどの政策に対して重きを置いているか、また政策に対して一貫して賛成(または反対)を続けているのかどうかを可視化することを目指しました。

実際に複雑な議事録を読んでみる

「Web上にある国会議事録を読めば理解できるのでは?」と考える方もいるかと思います。しかし上記の画像を見てみると、議事録というだけあって「えー」や「あのー、」などのフィラーであったり、「あるというふうに考えております。」などの話し言葉独特の単語が多く並んでいたり、「会計検査院法第三十四条や第三十六条の規定」などの非常に難しい専門用語が並んでいたりしており、法律分野に詳しくない人間からすると非常に読むことに時間がかかります。上記は一部抜粋ですが、このような文章が通常国会であれば1年で150日分あります。
ぜひ、一度読んで苦痛を体感してみてください。


本研究はこの問題点に着目して、このような複雑な国会議事録を機械に読ませ、数値として可視化することで、他党とも比較でき、どの政党がどの政策に一貫して賛成(または反対)と言い続けているのか(一貫しているか)。ということを分析しました。

直近2年間の国会議事録を使用して、何について話しているか要約するモデルと、その文章が賛成なのか反対なのかを分類するモデルを用意します。そして、要約した文章を本研究では正解と見立てた政策一覧(リンクは選挙ドットコム)とベクトル検索を実行し、最も関連度の高い政策を見つけます。政策一覧に書かれてある政党のスタンス(賛成の立場なのか、反対の立場なのか)が分類モデルの推測したスタンスと一致しているかどうかを比較します。最後に、比較した結果が正しければ(選挙公約でのスタンスと、国会でのスタンスが一致しているということ)1, 正しくなければ0とし、数値として表しました。

本研究の全体図

数値として表した結果は、ぜひ論文を読んで確認してください。今後の展望として2つほど挙げるとすると、1つは「得られた結果が本当に正しいかどうか判断する必要がある。」こと、もう1つは「大規模言語モデル(LLM)を使用して評価する」ということがあります。
前者に関して、今回は正解データを選挙ドットコムが掲載した政策一覧としましたが、この情報が本当に正しいかどうか確証はありません。そのため、比較した結果がある意味選挙ドットコムに委ねられています。今後は、複数の政策一覧を用いるなどして、正解データの信憑性を上げる必要があると考えます。
また、昨今話題のLLMを用いて評価もしたいと思っています。LLMの汎化能力でどこまで議事録を理解できるのか、そして正確に賛否を分類できるのか、要約できるかなど興味深いことが多くあります。特に、議事録では「人の目で見ると、なんとなく反対のニュアンスを含む文章だな。」という文章が多くあります。このような文章をLLMが理解できるのか、などこの研究から派生できることも多くあると思うので、ぜひ試したいと思います。

言語処理学会(NLP)

神戸の国際会議場で開催された第30回大会では、参加者が2045名、発表者数が599名とどちらも過去最多の人数となりました。

スポンサー企業も多く、NLP界隈の盛り上がりを強く感じました。スワッグも可愛いものが多かったです。

言語処理学会 第30回年次大会

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です