言語商会

文書の過去の版を表示しています。


日本語の自然言語処理は難しいか?

ここでは、自然言語処理の対象言語として日本語が難しいかどうか、 つまり、英語や中国語、その他の言語と日本語はどちらが処理しやすいか、という問題です。

言語学習の難しさと言語処理の難しさは異なる

まず、すぐに分かると思いますが、外国語として習得するのが難しいある言語があったとして、 その言語の自然言語処理も難しいということはありません。その逆(言語処理が難しいから 言語学習も難しい)も成り立ちません。つまり、両者はほとんど関係ありません。

これは人間とコンピューターの得意・不得意が違うからです。

日本語は文字コードが面倒、文字化けする

確かに文字コードの心配がない英語から比べれば面倒ですが、 Unicode時代に入ってからはあまり気にならなくなってきました。

まとめ

日本語の自然言語処理は難しい側面も易しい側面もあります。 言語そのものの難しさの他に言語資源の整備など社会的な側面も含めて総合的に考えれば、 英語処理よりは難しいがその次ぐらいに易しい、あるいは環境が整備されている言語だと思います。

日本語の何が難しいか?

  • 敬語
  • 文法:主語がない、代名詞が何を指すか分からない、二重否定など
  • 擬音語、擬態語
  • 曖昧な表現:ご遠慮ください、結構です、できなくもない
  • 語彙:流行語(若者言葉)、造語、幼児語
  • 表記:(外国語の)カタカナ語表記、ひらがなとカタカナの使い分け

よく聞く理由

  • 日本語はメジャーな言語ではないから難しい
  • 日本語は単語に分割されていないから難しい
  • 日本語は省略が多いから難しい
 (感想・要望・情報提供)