第4章 コンピュータが読みを漢字に変換する方法

4.4 経験的に変換する

  • べた書き文を経験的な方法で漢字かな混じり文に変換する方法としては、次の2つが代表的である
    • 二分節最長一致法
    • 文節数最小法
  • 実用的には四文節最長一致法が多く利用された
  • 現在では統計的手法が実用的なツールとして広く利用されている

4.5 統計的に変換する

  • 統計的な変換方法には2-gramモデルがある
  • 統計的モデルを用いたかな漢字変換では、モデルを作成したサンプルデータに性能が依存してしまう
    (サンプルデータと近い入力データに対しては高精度であるが、異なるデータに対しては精度が低くなる。)
  • 統計的なアプローチを取る場合は、いかに多くのものを網羅したサンプルを大量に用意できるかが性能の良否を決める

4.6 読みが同じで意味が異なる語の変換

  • 同音異義語を正しく変換する方法として次の3つがある
    • 単語使用頻度学習方式
      • 過去に使用された単語の使用頻度が最大のものを出力する
      • 個人が使用する単語はおよそ3000語程度であり、この程度の語数ならばある程度の精度が保証できる
    • 最後に使用したものを用いる方法
    • 文法的に合致したものを用いる方法(処理コストが高いので、実際にはあまり使われない)

Comments