n-gram言語モデル

「ある時点での単語の生起確率は,その直前の個の単語にのみ依存する」と仮定したモデル.
(単語の生起を重マルコフ課程で近似したモデル.)

長さの単語列が与えられたとき,その生起確率は次式で表現される.






3-gramモデルなら

これを求めるには,1-gram,2-gram,3-gramそれぞれの確率を求める必要がある.
コーパスより求める場合,コーパス中に単語列が出現する頻度をとすると,最尤推定より




と計算すればよい.

ただし実際には「現実に存在し得るが,偶然,コーパス中に出現しないn-gram」がある.
すると,そのn-gramの出現確率は0になっていしまう.

この問題を避ける手段として,低頻度の単語をひとまとめにしてしまう「語彙の制限」,値の高いn-gram確率を値の低いn-gram確率に分け与える「スムージング」がある.

参考文献
北 研二・中村 哲・永田 昌明 共著『音声言語処理』,森北出版株式会社(1996)
荒木雅弘『フリーソフトでつくる音声認識システム』,森北出版株式会社(2007)

「用語など」にもどる
Comments