文書の過去の版を表示しています。
単語 | 特定分野(S) | 一般分野(G) |
---|---|---|
w | a = freq(w, S) | b = freq(w, G) |
!w | c = freq(!w, S) | d = freq(!w, G) |
ここで、freq(w, S)はコーパスS中の単語 w の出現頻度、!w はw以外の全単語を意味する。 また、コーパスS+Gの全単語の出現頻度を n (=a + b + c + d)とする。
LLR = 2 * ( a * LN(a) + b * LN(b) + c * LN(c) + d * LN(d) - (a + b) * LN(a + b) - (a + c) * LN(a + c) - (b + d) * LN(b + d) - (c + d) * LN(c + d) + (a + b + c + d) * LN(a + b + c + d) )
Chi^2 = n (a * d - b * c)^2 / (a + b)(c + d)(a + c)(b + d)
Chi^2 = n (|a * d - b * c| - n / 2)^2 / (a + b)(c + d)(a + c)(b + d)
PMI = log (a * n / (a + b)(a + c) )
Cos = a / sqrt((a + b)(a + c))
Dice = 2 * a / (a + b) + (a + c)
CSM = (a * d - b * c) / sqrt((a + c)(b + d))