最尤推定・MAP推定

ノンパラメトリックベイズ入門〜ベイジアン HMM の実装まで〜」の7枚目までを,かなりやさしくまとめてみた.
(もともとスライドもやさしく書いてあるけども,スライドだけでは分からない補足も追加した.)

あるコインを10回投げて,10回表が出た.
次に表が出る確率は?

・最尤推定

 (表が出る確率)=(これまでに表が出た回数)/(これまでにコインを投げた回数) = 10 / 10 = 1

memo
偶然10回連続で出たかもしれないのに,1

・MAP(最大事後確率)推定

まず次に示す, に従属する関数である
「(10回投げて,10回表が出たという事を知った後の)『表が出る確率が  』である尤(もっと)もらしさ」
を計算する.(ベイズの定理より)

{(10回投げて,10回表が出たという事を知った後の)「表が出る確率が  」である尤もらしさ}
 = {(10回投げて,10回表が出たという事を知る前の)「表が出る確率が  」である確率}  (「表が出る確率が  」であるときに,10回連続表になる確率)

そして,それが最大になる  を「表が出る確率」とする.

memo
「尤もらしさ」とは,確率に比例するもの.

「(10回投げて,10回表が出たという事を知る前の)『表が出る確率が  』である確率」は経験や仮定等から自分で決められる.
(たぶん あたりが一番高くなりそう,とか)
慣れないと,「確率の確率」ってのがピンと来ないかも.
あくまで,10回投げて,10回表が出たという事を知る前の話.
これは,確率密度関数である.
この分布が一様に近いほどデータを重視し,尖っているほど事前の経験を重視する.

「『表が出る確率が  』であるときに,10回連続表になる確率」はこの場合,各試行が独立(と仮定する)なので  となる.
れは,確率密度関数ではない(積分しても1にならない).
したがって,これと確率密度関数を掛けあわせた結果も確率密度関数ではない.

例)
「『表が出る確率が  』である確率」を図のような分布とする.



一方,「『表が出る確率が  』であるときに,10回連続表になる確率」は次の図の通り.



これらを掛け合わせると,


この図によれば, あたりが最も「尤もらしさ」が高いということになる.

ここで出てきた言葉を,スライド中の表現に言い換えると

あるコインを10回投げて,10回表が出た -> 観測データ
表が出る確率  -> パラメータ
尤もらしさ -> 尤度
(観測データを知った後の)「表が出る確率が  」である確率 -> 事後確率
(観測データを知る前の)「表が出る確率が  」である確率 -> 事前分布
「表が出る確率が  」であるときに,10回連続表になる確率 ->

MAP推定は,観測データを事前分布にてスムージングしていると言える.
ここでは「表が出る確率」という1変数を求めたが,これを確率分布などにも当てはめることができる.
( n-gram 確率分布とか.そうなると次元が(加算)無限とか行くかもしれない)

Comments