第2章 コンピュータが言葉を覚える方法

2.1 なぜコンピュータが言葉を覚えなくてはいけないのか

  • 自然言語処理研究の初期から、解析的なアプローチによる研究が盛んに行われてきた
  • 解析的なアプローチ:このような言語現象にはこのような処理をしなさいと、あらかじめ記述しておく方法
             想定されていない言語対象には対処できず、頑健性が低いという問題がある。
             また、誤り訂正のために新たなルールを加えると、別の部分にエラーが生じることがある。
  • 解析的なアプローチの問題を解決するために、1990年代に次のような方法が提案された
    →頑健性が高く、保守や更新が用意である(精度向上のためには新しい例を追加するだけでよい)。
    →しかし、高精度な処理を行うためには、良質なコーパスが大量に必要となる。
    • 用例に基づくアプローチ
      • 人間が例を用いて問題を解決する過程を模倣
      • 入力文と類似性の高い例の一部を組み合わせて自然言語を解析する手法
    • 統計的モデルに基づくアプローチ
      • 用例から統計的に格情報を獲得して解析を行う手法
  • コーパス:電子化された文書(形態素タグや構文タグなどの情報が付加されている場合が多い)
  • 本質的にはコンピュータに言語獲得能力を持たせることが必要
  • 言語獲得能力:リアルタイムに未知の状況に対処できる能力
           すなわち、コンピュータが言葉を覚える能力。

2.4 コンピュータはどこまで実現できてどこからが実現できないのか?

  • 実現できていること
    • 筆者の研究では、「遺伝的アルゴリズムを用いた帰納的学習による音声対話処理手法」などで
      雑談のレベル(3歳児のレベル)まで学習が進むことが確認されている
  • 実現できていないこと
    • 実世界の情報を正確に認識できないこと
    • マルチメディアに対する学習の仕組みが明らかになっていないこと
      →人間の取得する情報の80%を画像情報が占めていると言われている。
       よって、マルチメディアからの学習も今後の課題になると考えられる。
    • 論理的な思考を行えるように成長する仕組みが明らかになっていないことなど

Comments