このページの2つのバージョン間の差分を表示します。
| 次のリビジョン | 前のリビジョン | ||
| 重要度 [2021/01/31 11:51] – 作成 admin | 重要度 [2022/04/29 15:21] (現在) – ↷ 移動操作に合わせてリンクを書き換えました。 admin | ||
|---|---|---|---|
| 行 1: | 行 1: | ||
| ===== 重要度 ===== | ===== 重要度 ===== | ||
| ==== 重要度とは ==== | ==== 重要度とは ==== | ||
| - | * 文や単語がどの程度重要かを数値化する計算または処理。[[キーワード抽出]]も参照。 | + | * 文や単語がどの程度重要かを数値化する計算または処理。特徴度も同じ意味で用いる。[[キーワード抽出]]も参照。 |
| * 下記の2アルゴリズムが有名。 | * 下記の2アルゴリズムが有名。 | ||
| - | * [[TF-IDF]] | + | * [[重要度: |
| - | * [[Okapi BM25]] | + | * [[重要度: |
| + | |||
| + | ==== パラメーター ==== | ||
| + | |||
| + | ^単語^特定分野(S)^一般分野(G)| | ||
| + | ^w|a = freq(w, S)|b = freq(w, G)| | ||
| + | ^!w|c = freq(!w, S)|d = freq(!w, G)| | ||
| + | |||
| + | ここで、freq(w, | ||
| + | また、コーパスS+Gの全単語の出現頻度を n (=a + b + c + d)とする。 | ||
| + | |||
| + | 以下の a, b, c, d, nは上記の意味で用いる。ln()は自然対数、sqrt()は平方根を意味する。 | ||
| + | |||
| + | ==== 対数尤度比 ==== | ||
| + | |||
| + | llr = 2 * (f(a) + f(b) + f(c) + f(d) + f(n) - f(a + b) - f(a + c) - f(b + d) - f(c + d)) | ||
| + | ただし f(x) = x * ln(x) | ||
| + | |||
| + | |||
| + | ==== χ^2値 ==== | ||
| + | |||
| + | chi2 = n * (a * d - b * c) ** 2 / ((a + b) * (c + d) * (a + c) * (b + d)) | ||
| + | |||
| + | ==== イェーツ補正χ^2値 ==== | ||
| + | |||
| + | yates = n * (abs(a * d - b * c) - n / 2) ** 2 / ((a + b) * (c + d) * (a + c) * (b + d)) | ||
| + | |||
| + | ==== 自己相互情報量 ==== | ||
| + | |||
| + | pmi = ln(a) + ln(n) - ln((a + b) * (a + c)) | ||
| + | |||
| + | ==== コサイン類似度 ==== | ||
| + | |||
| + | cos = a / sqrt((a + b) * (a + c)) | ||
| + | |||
| + | ==== Dice係数 ==== | ||
| + | |||
| + | dice = 2 * a / ((a + b) + (a + c)) | ||
| + | |||
| + | ==== 補完類似度 ==== | ||
| + | |||
| + | csm = (a * d - b * c) / sqrt((a + c) * (b + d)) | ||
| + | |||
| + | ==== 参考文献 ==== | ||
| + | * [[https:// | ||