エントロピーとパープレキシティ

English: entropy, perplexity

※ここでは情報理論におけるエントロピーを説明します.

ある事象Eiが発生する確率をpiとすると
その情報源のエントロピーH



で求められる(ここでのlogの底は2とする).
これは情報量の期待値であり,「得られる情報の曖昧さ」とも言いかえられる.

情報源を言語に置き換えれば,
言語Lにおける単語列w1wnの生成確率をP(w1wn)としたとき
Lのエントロピーは次式で求められる.



また1単語あたりのエントロピーは


となる.
これは言語から生成される単語を特定するために必要な情報量を表す.

また,ある単語の後には平均して2H(L)個の単語が後続可能であることを示している.
すなわち


は情報理論的な意味での単語の平均分岐数を表しており,これをパープレキシティという.
言語のパープレキシティが大きいほど,単語の特定が難しく,言語として複雑になる.


「用語など」に戻る
Comments