潜在意味解析

ベクトル空間モデルの発展形

単語-文書行列
各行が各単語,各列が各文書に対応

各成分の重み付けにはtf-idfが用いられることが多い.

異なる行ベクトル間の内積はその文書郡における単語間の相関を示す.
異なる列ベクトル間の内積はその単語郡における文書間の相関を示す.

特異値分解

M×Nの単語-文書行列Cに対して
C=UΣVT
UM×Mの直行行列
VN×Nの直行行列
ΣCの特異解を対角成分に含むM×N行列
(ここでK個の最大特異値を残して,他の特異値を0と置くことでCの近似を行うことができる)

CCT=UΣΣTUT
CTC=TΣVT

ΣΣTとΣTΣは対角行列であるから,UにはCCTのVにはCTCの固有ベクトルが含まれる.

Vの列ベクトルを(コサインなどで)比較することで文書群のクラスタリングが
Uの行ベクトルを比較することで単語郡のクラスタリングが行える.
(各次元がクラスタ,成分がクラスタへの帰属度)

クエリが与えら得た際に,これを短い文書と考え文書群と比較できる.
クエリ中の単語と文書中の単語がマッチしない場合にも意味的な類似性をもとに検索が行える.

参考

言語処理学会編:言語処理学辞典,p.297,335,共立出版(2009)
wikipedia:潜在意味解(最終閲覧日 2012/01/25)

「岡田 正平」に戻る
Comments