文献紹介 6

Using Large Monolingual and Bilingual Corpora to Improve Coordination Disambiguation

Shane Bergsma, David Yarowsky, Kenneth Church
Proceedings of the 49th Annual Meeting of the Association for Computational Linguistics, pages 1346.1355, 2011.

現在理解したところまで

1.Introduction
並列構造解析は昔からある難しい問題である。
  w1 cc w2 h
 + rocket and mortar attacks
 - asbestos and polyvinyl chloride
+:ロケット攻撃と迫撃砲攻撃
-:アスベストと塩化ビニル

自然言語処理アプリケーションは文の意味を理解するために名詞の省略を認識する必要がある。
たとえば、インターネット検索エンジンにクエリとしてrocket attacksを与えたとする、その場合rocket attacksだけでなくmortar attacksやrocketだけのものが高くランク付けされるはず。
また、翻訳する際に並び替えが必要であったりする。
並列構造は複雑であるため構文解析器や機械翻訳システムに同等句の暗記をさせることはできない。

並列構造の一般的なケースは非常に複雑だが、ここでは複雑な名詞句のケースを扱う。
名詞並列構造解析のエラーは構文解析器の並列構造エラーの大半を占めている。

単語対訳コーパスを用いて等位名詞の曖昧さを解決

共同訓練により、2つの分類器を訓練する。一方の予測から繰り返し学ぶことで、もう一方の分類器の精度を向上させる。

単一言語分類器は、整列双方向テキスト内およびそれを超える両方で使用できます。特に、それは双方向のテキストデータとコーパスの外領域の例の両方で96%近くの精度を実現しています。

2.Problem Definition and Related Tasks
このシステムでは、品詞タグ付きコーパスの入力で動作。
以下の表現と一致する場合のみ解析可。
[DT|PRP$] (N.*|J.*) and [DT|PRP$] (N.*|J.*) N.*
タグはpenn-treebankと同じ。

20~10文に一つの割合で出現する。
w1とw2のペアは38%が形容詞、26%が名詞、36%が混合となっている。

このパターンでw1とw2が並列でないケースは
1) w1とw2 hが並列 (上の-) 
2) 文と文の並列 (farmers are getting older\w1 and younger\w2 people\h are reluctant to take up farming.)

このタスクは、名詞だけの並列解析よりは広く、通常の構文解析よりは狭い。

VadasとCurran2007a)はpenn-treebank手動でNP構造に注釈をつけた、またいくつかの名詞構造解析は最近、このデータを使用して開発されている(VadasとCurran,2007B;Pitlerら,2010)。
そのような構造はこのアルゴリズム明らかに適している。

3. Supervised Coordination Resolution
x:コーパス内の特有の名詞並列構造の特徴ベクトル          w:学習し重み付けされたベクトルのスコア
ラベル付けされた名詞 {(y^1,x^1), ..., (y^N,x^N)}
y=1:名詞省略有         y=0:名詞省略無
Pr(y=1)>0.5の場合省略が起きている。

より多くのラベルとより多くの素性があればより良い結果が出せる。
このシステムでは、単一言語と第二言語の情報を用いて解決する。

3.1 monolingual features
Count features:
Binary features:

Comments