内容へ移動
自然言語処理の餅屋
https://www.jnlp.org/
ユーザ用ツール
ユーザー登録
ログイン
サイト用ツール
検索
ツール
文書の表示
以前のリビジョン
バックリンク
最近の変更
メディアマネージャー
サイトマップ
ユーザー登録
ログイン
>
最近の変更
メディアマネージャー
サイトマップ
現在位置:
自然言語処理の餅屋
»
重要度
重要度
この文書は読取専用です。文書のソースを閲覧することは可能ですが、変更はできません。もし変更したい場合は管理者に連絡してください。
===== 重要度 ===== ==== 重要度とは ==== * 文や単語がどの程度重要かを数値化する計算または処理。特徴度も同じ意味で用いる。[[キーワード抽出]]も参照。 * 下記の2アルゴリズムが有名。 * [[重要度:tf-idf]] * [[重要度:okapi_bm25]] ==== パラメーター ==== ^単語^特定分野(S)^一般分野(G)| ^w|a = freq(w, S)|b = freq(w, G)| ^!w|c = freq(!w, S)|d = freq(!w, G)| ここで、freq(w, S)はコーパスS中の単語 w の出現頻度、!w はw以外の全単語を意味する。 また、コーパスS+Gの全単語の出現頻度を n (=a + b + c + d)とする。 以下の a, b, c, d, nは上記の意味で用いる。ln()は自然対数、sqrt()は平方根を意味する。 ==== 対数尤度比 ==== llr = 2 * (f(a) + f(b) + f(c) + f(d) + f(n) - f(a + b) - f(a + c) - f(b + d) - f(c + d)) ただし f(x) = x * ln(x) ==== χ^2値 ==== chi2 = n * (a * d - b * c) ** 2 / ((a + b) * (c + d) * (a + c) * (b + d)) ==== イェーツ補正χ^2値 ==== yates = n * (abs(a * d - b * c) - n / 2) ** 2 / ((a + b) * (c + d) * (a + c) * (b + d)) ==== 自己相互情報量 ==== pmi = ln(a) + ln(n) - ln((a + b) * (a + c)) ==== コサイン類似度 ==== cos = a / sqrt((a + b) * (a + c)) ==== Dice係数 ==== dice = 2 * a / ((a + b) + (a + c)) ==== 補完類似度 ==== csm = (a * d - b * c) / sqrt((a + c) * (b + d)) ==== 参考文献 ==== * [[https://www.jstage.jst.go.jp/article/jnlp1994/11/3/11_3_165/_pdf/-char/ja|英語教育のための分野特徴単語の選定尺度の比較]]
(感想・要望・情報提供)
· 最終更新: 2022/04/29 15:21 by
admin
ページ用ツール
文書の表示
以前のリビジョン
バックリンク
文書の先頭へ
(広告募集)