角張 竜晴‎ > ‎読了論文‎ > ‎

述語項構造と照応関係のアノテーション:NAISTテキストコーパス構築の経験から

 述語構造解析と照応解析は、形態素・構文解析などの基礎技術と自然言語処理の応用分野とを繋ぐ重要な技術である。

動機

 既存のコーパス作成に関する研究で導入されているタグ付与の基準は、言語の違いや最終的に出力したい解析結果の粒度が異なるため、そのまま利用できない。
 本論文では、既存のタグ付与の使用を吟味し、述語項構造と共参照関係のアノテーションを行うために、タグ付与の基準がどうあるべきかを検討した。
 京都コーパス第3.0版の記事を対象にタグ付与作業を行った結果とその際に問題となった点を報告する。さらに、タグ付与の仕様の改善を示し、作業をやり直した結果を示す。

 今回の作業結果である述語項構造と照応・共参照ダグ付与コーパスをNAISTテキストコーパスとして公開されている。http://cl.naist.jp/nldata/corpus/


照応と共参照の関係

照応:
ある表現が同一文章内の他の表現を指す機能。
指す側の表現を照応詞、指される側の表現を先行詞という。
ゼロ代名詞:
述語の核要素の位置に出現している照応詞が頻繁に省略される。
この省略された核要素。

ゼロ照応:
ゼロ代名詞と照応関係となる場合。
文内ゼロ照応:
ゼロ代名詞と先行詞が同一文内に出現している場合。
文間ゼロ照応:
先行詞がゼロ代名詞と同一文章内の異なる文章に出現している場合。
外界照応:
ゼロ代名詞の先行詞が文章内に出現しない場合。
共参照:
二つ(もしくはそれ以上)の表現が現実世界(もしくは仮想世界)において同一の実態をさしている場合。
IRA:
照応関係にある場合で、同一の実体を指している場合。
ISA:
照応関係にある場合で、同一の実体を指していない場合。

述語項構造と照応・共参照のタグ付与に関する先行研究

照応・共参照のタグ付与
Soonら(Soon, Ng, and Lim 2001)やNgら(Ng and Cardie 2002a)
問題:過剰な共参照関係がタグ付与されている。

Automatic Content Extraction(ACE)(Doddington et al. 2004)
提案:過剰な共参照関係を回避するために、mention(言及)とentity(実体)という2つの概念を導入。

言及:文章中に出現する表現のこと
実体:現実世界(もしくは仮想世界)でさせるモノ

問題:文章内に出現する共参照関係に網羅的にタグが付与されない。

京都コーパス4.0(河原 他 2002)
・係り受けの情報に加え、一部に共参照タグが付与されている。
・ACEで導入されている実体と実体感の共参照関係に加え、実体と属性の間にも共参照関係のタグを付与している。

述語項構造のタグ付与
 必須格が省略されるゼロ照応の現象が頻繁に起きるため、文を超えて出現している表現や、もしくは文章外の要素も考慮してタグ付与を行う必要がある。

京都コーパス4.0
・文間ゼロ照応、外界照応となる項に関してもタグが付与されている。
・格助詞相当の表層格に加え、ニツイテのような連語も一つの表層格として述語と項の関係が付与されている。

事態性名詞のタグ付与
 動詞や形容詞などの述語への項構造の付与に加え、動詞派生名詞やサ変名詞などの名詞(事態派生名詞)についても述語と同様に、項同定の問題が設計されている。

本研究のタグ付与の基準とその作業結果

NAISTテキストコーパスで採用するタグ付与の仕様
(1)述語項構造については、述語の基本形にその項となる表現を表層格(ガ格、ヲ格、ニ格)レベルでタグ付与する。
(2)事態性名詞についても、述語と同様に表層格レベルで項を付与する。
(3)共参照関係については、IRAの関係のみを対象として共参照の関係を認定する。

本作業の問題点

述語のタグ付与の問題点
タグ付与の対象となる述語が「〜として」のような機能語相当表現の問題がある。
例えば・・・
「会社Aが会社Bを子会社として」
・「として」が”ある一つの側面からの価値付け・意味付け” の機能語相当表現
・「会社Aが会社Bを子会社とする」と解釈
⇨土屋ら(土屋, 宇津呂, 松吉, 佐藤, 中川 2006)を参考する予定


まとめ
・京都コーパス3.0を対象にこれまでにない大規模な述語項構造・共参照タグ付きコーパスを構築。
・学習手法の訓練事例とする場合は、分野の違いにより適切に解析できない場合があるため、いくつかの領域に拡張してタグ付与を行う必要がある。





Comments