文献紹介7

A SIMPLE BUT USEFUL APPROACH TO CONJUNCT IDENTIFICATION 
Rajeev Agarwal,Lois Boggess , 1992

品詞情報だけで等位語を判定する。

・アルゴリズム
※形容詞、副詞に関しては考慮していない。
等位接続詞を見つけるまで、文の要素(句、単語)をスタックに入れ続ける。
等位接続詞が見つかったら、そのすぐ後ろの句、または単語をpost-conjunctとして品詞タグ付け、ケースラベル付け(ear:body_part)を行う。
スタックから要素を取り出し、以下に示すルールを適用する。合わなければ次の要素を取り出す。
ルール
①もし品詞とケースラベルが、要素とpost-conjunctで一致した場合は、その要素をpre-conjunctとする。
②もし品詞が、要素とpost-conjunctで一致し、ケースラベルが互換性がある(medicationとtreatmentのように意味的に類似している)場合は、その要素をpre-conjunctとみなす。
スタックをすべて見ても一致しなかった場合のみ次のルールを適用して、再び確認する。
③品詞がpost-conjunctと一致した、等位接続詞に最も近い要素をpre-conjunctとみなす。

・欠点
1) このアルゴリズムは二つの並列しか考慮されていない。[A, B, C, and D]のような複数並列に対応できない。
2) この時のセミパーサーでは、句の適切な範囲が認識できなかったため、並列の範囲も正しいものができなかった。
3) このシステムは形容詞、副詞(句)、前置詞(句)に対応するためのルールがないため正しく解析できない。

・結果
メルク獣医マニュアルの10,000ワードの章でテストを行った。
操作されていない大量のテキストデータから結果を得られた。
このシステムにおいて意味ラベルはドメインに依存するが、意味ラベルの実際の値を見ているのではなく、一致するかだけを見ているので、このシステムはドメインに無関係である。
このシステムは変更を加えればエラー率をもっと下げることができる。
エラー理由:誤タグ付け、動名詞、その他

今後、句とコンマに対応させていく必要がある。
また、意味内容を考慮できれば、なお良い。
Comments