このページの2つのバージョン間の差分を表示します。
両方とも前のリビジョン前のリビジョン次のリビジョン | 前のリビジョン | ||
重要度 [2021/02/03 15:25] – admin | 重要度 [2022/04/29 15:21] (現在) – ↷ 移動操作に合わせてリンクを書き換えました。 admin | ||
---|---|---|---|
行 1: | 行 1: | ||
===== 重要度 ===== | ===== 重要度 ===== | ||
==== 重要度とは ==== | ==== 重要度とは ==== | ||
- | * 文や単語がどの程度重要かを数値化する計算または処理。[[キーワード抽出]]も参照。 | + | * 文や単語がどの程度重要かを数値化する計算または処理。特徴度も同じ意味で用いる。[[キーワード抽出]]も参照。 |
* 下記の2アルゴリズムが有名。 | * 下記の2アルゴリズムが有名。 | ||
- | * [[TF-IDF]] | + | * [[重要度: |
- | * [[Okapi BM25]] | + | * [[重要度: |
==== パラメーター ==== | ==== パラメーター ==== | ||
行 14: | 行 14: | ||
ここで、freq(w, | ここで、freq(w, | ||
また、コーパスS+Gの全単語の出現頻度を n (=a + b + c + d)とする。 | また、コーパスS+Gの全単語の出現頻度を n (=a + b + c + d)とする。 | ||
+ | |||
+ | 以下の a, b, c, d, nは上記の意味で用いる。ln()は自然対数、sqrt()は平方根を意味する。 | ||
==== 対数尤度比 ==== | ==== 対数尤度比 ==== | ||
+ | | ||
+ | llr = 2 * (f(a) + f(b) + f(c) + f(d) + f(n) - f(a + b) - f(a + c) - f(b + d) - f(c + d)) | ||
+ | ただし f(x) = x * ln(x) | ||
- | LLR = 2 * ( a * LN(a) + b * LN(b) + c * LN(c) + d * LN(d) | ||
- | - (a + b) * LN(a + b) | ||
- | - (a + c) * LN(a + c) | ||
- | - (b + d) * LN(b + d) | ||
- | - (c + d) * LN(c + d) | ||
- | + (a + b + c + d) * LN(a + b + c + d) | ||
- | ) | ||
- | ==== χ2値 ==== | + | ==== χ^2値 ==== |
- | | + | |
| | ||
- | ==== イ エ ーツ補正χ2値 ==== | + | ==== イェーツ補正χ^2値 ==== |
- | | + | |
==== 自己相互情報量 ==== | ==== 自己相互情報量 ==== | ||
- | | + | |
| | ||
==== コサイン類似度 ==== | ==== コサイン類似度 ==== | ||
- | | + | |
| | ||
==== Dice係数 ==== | ==== Dice係数 ==== | ||
- | | + | |
==== 補完類似度 ==== | ==== 補完類似度 ==== | ||
- | | + | |
+ | |||
+ | ==== 参考文献 ==== | ||
+ | * [[https:// | ||