重要度

差分

このページの2つのバージョン間の差分を表示します。

この比較画面へのリンク

--- 重要度 [2021/02/03 15:04] – admin
+++ 重要度 [2022/04/29 15:21] (現在) – ↷ 移動操作に合わせてリンクを書き換えました。 admin
@@ 行 1: / 行 1: @@
 ===== 重要度 =====
 ==== 重要度とは ====
-  * 文や単語がどの程度重要かを数値化する計算または処理。[[キーワード抽出]]も参照。
+  * 文や単語がどの程度重要かを数値化する計算または処理。特徴度も同じ意味で用いる。[[キーワード抽出]]も参照。
   * 下記の２アルゴリズムが有名。
-    * [[TF-IDF]]
+    * [[重要度:tf-idf]]
-    * [[Okapi BM25]]
+    * [[重要度:okapi_bm25]]
 ==== パラメーター ====
@@ 行 14: / 行 14: @@
 ここで、freq(w, S)はコーパスS中の単語 w の出現頻度、!w はw以外の全単語を意味する。
 また、コーパスS+Gの全単語の出現頻度を n (=a + b + c + d)とする。
+以下の a, b, c, d, nは上記の意味で用いる。ln()は自然対数、sqrt()は平方根を意味する。
 ==== 対数尤度比 ====
+  llr = 2 * (f(a) + f(b) + f(c) + f(d) + f(n) - f(a + b) - f(a + c) - f(b + d) - f(c + d))
+  ただし f(x) = x * ln(x)
+==== χ^2値 ====
+  chi2 = n * (a * d - b * c) ** 2 / ((a + b) * (c + d) * (a + c) * (b + d))
+==== イェーツ補正χ^2値 ====
+  yates = n * (abs(a * d - b * c) - n / 2) ** 2 / ((a + b) * (c + d) * (a + c) * (b + d))
+==== 自己相互情報量 ====
+  pmi = ln(a) + ln(n) - ln((a + b) * (a + c))
+==== コサイン類似度 ====
+  cos = a / sqrt((a + b) * (a + c))
+==== Dice係数 ====
+  dice = 2 * a / ((a + b) + (a + c))
+==== 補完類似度 ====
-LLR = 2 * (aLNa + bLNb + c * LN(c) + d * LN(d) - (a + b) * LN(a + b) - (a + c) * LN(a + c) - (b + d) * LN(b + d) - (c + d) * LN(c + d) + (a + b + c + d) * LN(a + b + c + d))
+  csm = (a * d - b * c) / sqrt((a + c) * (b + d))
+==== 参考文献 ====
+  * [[https://www.jstage.jst.go.jp/article/jnlp1994/11/3/11_3_165/_pdf/-char/ja|英語教育のための分野特徴単語の選定尺度の比較]]

(感想・要望・情報提供)　

.gz · 最終更新: 2021/02/03 15:04 by admin

(広告募集)