概念ベースと Earth Mover’s Distance を用いた文書検索

 著者
 藤江 悠五, 渡部 広一, 河岡 司
 タイトル 概念ベースと Earth Mover’s Distance を用いた文書検索
 学会自然言語処理
 ID:ページ:年 Vol. 16 (2009)     No. 3      pp.3_25-3_49
 PDF http://www.jstage.jst.go.jp/article/jnlp/16/3/3_25/_pdf/-char/ja/

概念ベースから単語の類似度を求めてEarthMover'sDistanceを使って文書間の類似度を求めます
さらに概念ベースを自動拡張します

概念ベース
ある単語の意味(概念)をその単語に関連の深い単語群(属性)で定義した知識ベース
 概念 属性/重み
 雪 雪/0.61、雪掻き/0.31、粉雪/0.27
 雪掻き 雪掻き・0.61、除雪/0.14、降雪/0.14
 粉雪 粉雪/0.23、真っ白/0.21、氷点下/0.20

先行研究
wordnetを用いて単語間距離を定義し、EMDにより文書間類似度を定義する手法
→wordnetなどの整理された辞書を用いる場合は、辞書に含まれてない単語をどうするかが問題になる。

    単語の共起情報をもとに単語間の関連性を定義し、EMDにより文書間の類似度を定義する手法
→用いる文書集合の特性や容量の影響を大きく受けるため、正確に関連性を定義しているとは言えない。



概念ベースの自動拡張手法
入力された未定義語をキーワードとしてグーグルで検索して上位100件を取得
HTMLタグを取り除いて形態素解析して、自立語を抽出
得られた自立語の中から概念ベースに存在するものを未定義語の属性候補とする
重みは属性の頻度にSWeb-idfの値を掛け合わせたものとする
但しSWeb-idfで求めた重みと概念ベースの重みでは重みの値が変わるため、そのまま概念ベースに追加することはできない

概念ベースの属性空間を考慮した重みづけ手法として概念に対するn次属性空間はその概念についての説明文書の集合とみなせる
概念:「個人情報」、属性:「個人、情報、識別、・・」
「個人を識別することができる情報」
    3次属性まで含めると概念に関係ない語まで含まれるので、2次属性まで用います。
    これにtf-idfの考え方をてきようして、未定義後の属性Aの重み(wc(a))は
となる
freq(A):未定義語の属性Aの2次属性内出現頻度
R:未定義後の一時属性の総数
cidf(A):未定義後の属性Aの概念ベース空間のidf値

新規概念を追加すると、概念ベースの既存の概念の属性として新規概念を持つものが存在しない。
新規概念がどの他のどの概念の属性にあたるかは2次属性内出現頻度を属性数で割った値が0.149以上かつ関連度0.068以上の場合に追加する。

閾値の設定は実際に概念と関係がある概念の組での2次属性内出現頻度割合と関連度の平均から求めた。




Comments