Web一般新聞記事を子供向けに言い換える知識の抽出

藤沢祐輔(香川大学大学院工学研究科)
相原慎太郎(香川大学工学部)
安藤一秋(香川大学工学部)

1.新聞記事を小学生が理解できる表現に自動で言い換える
  • Web上に存在する一般向け新聞記事と子供向け新聞記事を用いる
  • 内容が一致する一般記事と子供記事のペアを収集→差分を取って子供向けに言い換える知識を抽出

2.事前調査(人手)
  • 子供向け新聞記事(Web上)
  • 事前調査の結果
    • 対象:6日分54件の子供記事
    • 一般記事に対応付けることができたのは26件(48%)
    • 対応付けできなかった記事は、インタビューや天気図の解説など、子供記事独自の内容
    • 文同士の対応付けができたのは26記事中の166文のうち、112文(67%)
    • 対応付けできなかった文は、用語の解説や記者の感想など、子供記事独自の内容

3.単語単位の言い換え知識の抽出
  • 子供・一般記事群の収集
    • 子供記事のタイトルと1文目の自立語の中から、tf・idf値を計算して重要語を抽出する。
    • 重要語をWeb検索し、子供記事を除く上位10件を、子供記事に対応付ける一般記事候補群とする。
  • 記事同士の対応付け
    • 両記事のタイトルと記事本文に含まれる自立語を基に、Jaccard係数を利用して類似度を計算する。
    • 類似度が最も高い一般記事を、子供記事に対応付ける。
  • 文同士の対応付け
    • 文字3-gramの一致数が最も高い文同士を対応付ける。
  • 言い換え表現対の抽出
    • 共通して出現する自立語を含む文節が修飾している語や、共通自立語を含む文節に修飾される語を言い換え候補として抽出する。
    • 係り受け関係から部分文を生成して、言い換え表現候補を抽出する。
      • 「日本代表がカメルーンに勝利しました。」→「日本代表が勝利しました。」・「カメルーンに勝利しました。」
  • 妥当性検証
    • 難易度の低い子供文の方が、汎用性が高いと仮定。
    • 子供語候補のヒット数 > 一般語候補のヒット数の場合、そのペアを言い換え関係にあるとして抽出する。

4.抽出できない言い換え表現対
  • 言い換えの範囲がフレーズ
    • 子供文:白菜の値段が高くなった
    • 一般文:白菜が高騰した
  • 子供文では難しい漢字を平仮名で表記するため係り受け解析に失敗
    • 子供文:団地にあるしき地約15ヘクタールに工場を建設
  • 助詞を考慮しないことが影響
    • 子供文:愛媛県教育委員会が2010年、新設した「えひめ授業の鉄人」に5人の先生が選ばれました。
      • 部分文:先生が選ばれました。
    • 一般文:県教委が今年度、新設した「えひめ授業の鉄人」に5人の先生が選ばれた。
      • 部分文:今年度、選ばれた。
        →「先生」と「今年度」が言い換え表現対として抽出されてしまう。

Comments