文献紹介 5

文法制約と系列アライメントによる並列構造の解析
原 一夫,新保 仁,松本 裕治 ( 奈良先端科学技術大学院大学 情報科学研究科)
人工知能学会論文誌 25巻5号A 2010

はじめに
並列構造解析は、自然言語処理学分野において解決が困難な問題
最新の構文解析器(Charniak-Johnson パーザ[Charniak 05])の解析例
・・・were {[6.1months] and [8.9 months] in arm A} and {7.2 months} and {9.5 months} in arm B.
となっているが実際は
・・・were {[6.1months] and [8.9 months] in arm A} and {[7.2 months] and [9.5 months] in arm B}.
が正しい。
対称性をもつが正しい解析がされないことは意外である。

先行研究
アライメントと機械学習を応用した並列句解析、原一夫ら
この手法は並列構造の同定のために系列アライメント手法を適用する。
文全体を一つの編集グラフで表現するため、並列構造に他の並列構造が埋めこまれている構造を扱うことができない。
このような構造は少なくなく、Genia Treebank Beta に出てくる並列構造の1/3がそうである。

関連研究
名詞句の内部並列構造の解析
・Resnikの研究(99)
”nand n2 n3”という型の単語列に関して並列関係の曖昧性解消を行った。
しかし、niは名詞に限定されている。
この名詞並列句は”[n1 and n2 n3]”と”[n1 and n2] n3”の可能性がある。
Resnikはn1とn2、n1とn3に関してコーパスから計算した意味的類似度や単複一致が、曖昧性解消のための重要な情報であると報告した。
・Goldbergの研究(99)
”n1 前置詞 n2 and n3”という型の単語列に関して並列関係の曖昧性解消を行った。
これは”[n1 前置詞 n2 and n3]”と n1 前置詞 [n2 and n3] の可能性がある。
並列項目対の類似性に注目せず、PP-attachmentの曖昧性解消に用いられるアプローチで、この問題を解いている。
・Hearstの研究(05)
Web検索エンジンを用いて、単語の共起頻度情報を求め、Resnikと類似したタスクに適応している。
・Chantreeの研究(05)
Resnikのタスクを拡張し、名詞に限定しない修飾部が並列項目主辞対の両方を修飾するのか否かを判定する問題を、コーパスにおける分布類似度、共起頻度を用いての解決を試みている。
文を対象とした並列構造解析
・Agarwalらの研究(92)
発見的に作成したパターンにより、文中から並列項目対を抽出。
・Okumuraらの研究(94)
発見的に作成したパターンにより並列項目対の候補の集合を特定後、形態素解析、意味解析等をもとに獲得した素性をもとに算出した類似度スコアの大きい候補を並列項目対として出力。
・Hoganの研究(07)
名詞並列構造が含まれている文を対象に構文解析を行った。並列項目間の対称性と並列関係の主辞単語間の依存関係を取り込んだ生成モデルを提案。これをBikel parserのn-best解にリランキングに用いた。
・Buykoらの研究(08)
linear-chain CRFを識別学習に用いた。
これらの研究は、限られた形の並列構造を十分すぎる情報を与えられた状態で解析する、という問題設定の枠内に留まっている。

手法
・与えられる情報
解析対象文(単語列)、単語の品詞情報
・システムの構成
①並列構造に特化した文法
  文中に2個以上の並列構造が存在した場合に、それらが矛盾していないことを保証するために用いられ、句構造等については考慮しない、簡単な文法
文法中の非終端記号と並列構造木の生成規則を以下に示す。
・非終端記号
・生成規則
並列構造木の例


②パーセプトロンを用いた素性重みの自動調整法


評価実験
データ:Genia Treebank Beta
Penn Treebankに似た句構造木のコレクションで、Medlineアブストラクトから抽出した4529文からなる。
また、並列構造の範囲がタグ付けされている。この中で、生成規則で表現できる並列構造(and,or,but)をもつ文2508文のみを抽出。抽出した文に含まれる3598個の並列構造を評価データとして用いる。ちなみに抽出した並列構造は、Geniaに含まれる並列構造の90%近くを占める。
方法1:並列構造の種類によらず、すべての並列構造の範囲を推定する。
比較対象:Bikel-Collinsパーザ(BC)、Charniak-Johnsonリランキングパーザ(CJ)
実験結果、再現率
文並列、動詞句並列が悪い理由:「SVO and S'V'O'」という並列の場合提案手法だと”and”直後のS'の名詞句と直前のOの名詞句を名詞句並列としてしまう。
方法2:名詞並列構造を検出し、その範囲を出力する。
比較対象:Bikel-Collinsパーザ(BC)、Charniak-Johnsonリランキングパーザ(CJ)、原らの手法
原らの手法がネストした並列構造を含む文が解析できないため、”and”を含む1613文にあらわれる”and”がつく並列構造のみに対して実験を行った。
実験結果

Comments