第1章 言葉をコンピュータで扱う方法

1.1 どうしてコンピュータで言葉を扱うのは難しいのか?

  • 会話の実現には次の3つの段階が必要
    →各段階において、自然言語のもつ"曖昧さ"のために、コンピュータでは処理が難しい。
    • 自然言語を理解する段階
    • 答えを判断する段階
    • 自然言語で表現する段階
  • ひとつの語は複数の意味を持っており、適切な意味の選択には次の3つの情報が必要
    • 背景知識
    • 文脈
    • 常識
  • 自然言語の曖昧さを処理できないので、曖昧さのない状況を仮定して研究が行われた
    積み木の世界を対象としたシステム「SHRDLU」(マサチューセッツ工科大学、1972年)
  • 人間は、言語を獲得し知識を蓄えていく"学習"によって、膨大な"常識"を獲得している
  • SHRDLUとは対照的に、どのような話題にも応答できる対話システムも研究された
    精神分析医のインタビュー代行システム「ELIZA」(マサチューセッツ工科大学、1966年)
    理解はできないが、相手の発話中のキーワードに反応して応答する。

1.2 コンピュータが言葉を理解する基本的技術の概要

  • 自然言語処理の基本的な技術
    1. 形態素解析:文を分解する
      • 単語はひとつ以上の形態素から構成される
      • 形態素:意味を持つ最小の言語単位
      • 形態素解析の目的
        • 単語を形態素単位に分解する
        • 各形態素に品詞、活用情報などを認定する
      • 形態素解析の精度は現在(2004年)95%以上にまでなっている
      • 形態素解析ツール:JUMAN ChaSen
    2. 構文解析:形態素解析の結果を基にして文の構造を解析する
      • 構文解析の目的:文の構造を解析し、形態素間の関係を決定すること
      • 構文解析の精度は依然として不十分(2004年)
      • 構文解析ツール:KNP
    3. 意味解析:構文解析の結果を基にして意味を解析する
      • 意味を理解するとはどのようなことなのか、はっきり解明されていない
      • 意味とは何かということすらはっきりしていない
      • 格パターンと構文解析結果から格関係を推定し、その整合性を判断して意味構造を決定する
      • 格パターン:文を構成する各要素(語や句)が述語に対して果たす役割を規定したもの
      • 意味解析の例として、格フレームと呼ばれる表現方法による解析がある
      • 格フレーム:動詞の取るべき格を一覧表として表現したパターン
      • 意味解析では、シソーラスや格フレーム中に記述された"知識"を用いる
      • シソーラス:単語を階層構造に意味分類したもの

Comments