ユーザ用ツール

サイト用ツール


重要度

差分

このページの2つのバージョン間の差分を表示します。

この比較画面へのリンク

両方とも前のリビジョン前のリビジョン
次のリビジョン
前のリビジョン
重要度 [2021/02/15 15:46] admin重要度 [2022/04/29 15:21] (現在) – ↷ 移動操作に合わせてリンクを書き換えました。 admin
行 3: 行 3:
   * 文や単語がどの程度重要かを数値化する計算または処理。特徴度も同じ意味で用いる。[[キーワード抽出]]も参照。   * 文や単語がどの程度重要かを数値化する計算または処理。特徴度も同じ意味で用いる。[[キーワード抽出]]も参照。
   * 下記の2アルゴリズムが有名。   * 下記の2アルゴリズムが有名。
-    * [[TF-IDF]] +    * [[重要度:tf-idf]] 
-    * [[Okapi BM25]]+    * [[重要度:okapi_bm25]]
  
 ==== パラメーター ==== ==== パラメーター ====
行 15: 行 15:
 また、コーパスS+Gの全単語の出現頻度を n (=a + b + c + d)とする。 また、コーパスS+Gの全単語の出現頻度を n (=a + b + c + d)とする。
  
-以下の a, b, c, d, nは上記の意味で用いる。+以下の a, b, c, d, nは上記の意味で用いる。ln()は自然対数、sqrt()は平方根を意味する。
  
 ==== 対数尤度比 ==== ==== 対数尤度比 ====
      
-  llr = f(a) + f(b) + f(c) + f(d) + f(n) +  llr = 2 * (f(a) + f(b) + f(c) + f(d) + f(n) - f(a + b) - f(a + c) - f(b + d) - f(c + d)
-      - f(a + b) - f(a + c) - f(b + d) - f(c + d) +  ただし f(x) = x * ln(x) 
-  ただし f(x) = x * log(x) + 
-   +
 ==== χ^2値 ==== ==== χ^2値 ====
  
-  chi2 = n * (a * d - b * c) ** 2  +  chi2 = n * (a * d - b * c) ** 2 / ((a + b) * (c + d) * (a + c) * (b + d))
-  / ((a + b) * (c + d) * (a + c) * (b + d))+
      
 ==== イェーツ補正χ^2値 ==== ==== イェーツ補正χ^2値 ====
  
-  yates = n * (abs(a * d - b * c) - n / 2) ** 2  +  yates = n * (abs(a * d - b * c) - n / 2) ** 2 / ((a + b) * (c + d) * (a + c) * (b + d))
-        / ((a + b) * (c + d) * (a + c) * (b + d))+
  
 ==== 自己相互情報量 ==== ==== 自己相互情報量 ====
  
-  pmi = log(a) + log(n) - log((a + b) * (a + c))+  pmi = ln(a) + ln(n) - ln((a + b) * (a + c))
      
 ==== コサイン類似度 ==== ==== コサイン類似度 ====
(感想・要望・情報提供) 
.gz · 最終更新: 2021/02/15 15:46 by admin

(広告募集)