ユーザ用ツール

サイト用ツール


サイドバー

重要度

重要度

重要度とは

  • 文や単語がどの程度重要かを数値化する計算または処理。特徴度も同じ意味で用いる。キーワード抽出も参照。
  • 下記の2アルゴリズムが有名。

パラメーター

単語特定分野(S)一般分野(G)
wa = freq(w, S)b = freq(w, G)
!wc = freq(!w, S)d = freq(!w, G)

ここで、freq(w, S)はコーパスS中の単語 w の出現頻度、!w はw以外の全単語を意味する。 また、コーパスS+Gの全単語の出現頻度を n (=a + b + c + d)とする。

以下の a, b, c, d, nは上記の意味で用いる。ln()は自然対数、sqrt()は平方根を意味する。

対数尤度比

llr = 2 * (f(a) + f(b) + f(c) + f(d) + f(n) - f(a + b) - f(a + c) - f(b + d) - f(c + d))
ただし f(x) = x * ln(x)

χ^2値

chi2 = n * (a * d - b * c) ** 2 / ((a + b) * (c + d) * (a + c) * (b + d))

イェーツ補正χ^2値

yates = n * (abs(a * d - b * c) - n / 2) ** 2 / ((a + b) * (c + d) * (a + c) * (b + d))

自己相互情報量

pmi = ln(a) + ln(n) - ln((a + b) * (a + c))

コサイン類似度

cos = a / sqrt((a + b) * (a + c))

Dice係数

dice = 2 * a / ((a + b) + (a + c))

補完類似度

csm = (a * d - b * c) / sqrt((a + c) * (b + d))

参考文献

(感想・要望・情報提供) 
· 最終更新: 2022/04/29 15:21 by admin

(広告募集)