ユーザ用ツール

サイト用ツール


サイドバー

重要度

文書の過去の版を表示しています。


重要度

重要度とは

  • 文や単語がどの程度重要かを数値化する計算または処理。特徴度も同じ意味で用いる。キーワード抽出も参照。
  • 下記の2アルゴリズムが有名。

パラメーター

単語特定分野(S)一般分野(G)
wa = freq(w, S)b = freq(w, G)
!wc = freq(!w, S)d = freq(!w, G)

ここで、freq(w, S)はコーパスS中の単語 w の出現頻度、!w はw以外の全単語を意味する。 また、コーパスS+Gの全単語の出現頻度を n (=a + b + c + d)とする。

以下の a, b, c, d, nは上記の意味で用いる。

対数尤度比

LLR = 2 * ( a * LN(a) + b * LN(b) + c * LN(c) + d * LN(d) 
- (a + b) * LN(a + b) 
- (a + c) * LN(a + c) 
- (b + d) * LN(b + d) 
- (c + d) * LN(c + d)
+ (a + b + c + d) * LN(a + b + c + d)
)

χ^2値

χ^2 = n (a * d - b * c)^2 / (a + b)(c + d)(a + c)(b + d)

イ エ ーツ補正χ^2値

Yatesχ^2 = n (|a * d - b * c| - n / 2)^2 / (a + b)(c + d)(a + c)(b + d)

自己相互情報量

PMI = log (a * n / (a + b)(a + c) )

コサイン類似度

Cos = a / sqrt((a + b)(a + c))

Dice係数

Dice = 2 * a / (a + b) + (a + c)

補完類似度

CSM = (a * d - b * c) / sqrt((a + c)(b + d)) 

参考文献

(感想・要望・情報提供) 
.gz · 最終更新: 2021/02/03 15:34 by admin

(広告募集)