wikipediaの記事関係からの上位下位関係抽出

 著者
 隅田 飛鳥, 吉永 直樹, 鳥澤 健太郎
 タイトル wikipediaの記事関係からの上位下位関係抽出
 学会自然言語処理  
 ID:ページ:年 Vol. 16 (2009)     No. 3      pp.3_3-3_24
 PDF http://www.jstage.jst.go.jp/article/jnlp/16/3/3_3/_pdf/-char/ja/

上位下位関係の定義(Millerの定義)
「AはBの一種、あるいはひとつ」と、ネイティブスピーカーがいえるときであると定義する。

他の上位下位関係抽出の研究
語彙統語パターンを利用した研究
英語新聞記事を対象に、[<上位語> such as <下位語>]のようなパターンで上位下位関係を獲得する。
日本語の新聞記事コーパスにたいして、[<下位語>(や<下位語2>)という<上位語>]というパターンで獲得。
[<上位語>「下位語」]のような括弧を用いたパターン。
WEB文書中の箇条書きパターンを下位語とみなす方法。

wikipediaからの上位下位関係獲得
Wikipediaの記事中の定義文からパターンにマッチする語を抽出する方法
定義文は記事の1文目とする。
記事を意味解析し、定義文に対応する項構造を認識して精度を向上させる研究もあった。
記事の見出しに対するカテゴリを上位後語とする研究。

提案手法
明確な構造をもつmediawiki構文を解析することで。記事構造を取得して、上位下位関係候補を取得。
「主な~」「代表的な~」といったノイズをそれぞれパターンを用意して取り除く。
他に記号などの不用語を取り除くルールを作成し、取り除く。
候補をSVMで分類。素性を8種類用意し、SVMのスコアの平均が閾値以上になった場合、その上位下位関係候補を適切だと判定する。
8種類の素性はPDF参照。

実験
提案手法のうち、SVMのスコアの閾値を0.36とした場合に精度90%となったこの時の再現率は77%
この手法での誤りを解析してみると、誤って「松下家/松下響子」などの部分全体関係に入るものが多く存在した。
Comments