文書の過去の版を表示しています。
ここでは、自然言語処理の対象言語として日本語が難しいかどうか、 つまり、英語や中国語、その他の言語と日本語はどちらが処理しやすいか、という問題です。
まず、すぐに分かると思いますが、外国語として習得するのが難しいある言語があったとして、 その言語の自然言語処理も難しいということはありません。その逆(言語処理が難しいから 言語学習も難しい)も成り立ちません。つまり、両者はほとんど関係ありません。
これは人間とコンピューターの得意・不得意が違うからです。
確かに文字コードの心配がない英語から比べれば面倒ですが、 Unicode時代に入ってからはあまり気にならなくなってきました。
これもよく言われます。英語は分かち書き(単語と単語の間に空白を入れる)しているから簡単だ、 日本語は形態素解析が必要で難しいという意見です。
これについてはある程度正しいですが、下記に注意が必要です。以下、空白で区切られた塊をトークンと呼びます。
以上まとめると、分かち書きする言語は必ずしも簡単とは限りません。
日本語の自然言語処理は難しい側面も易しい側面もあります。 言語そのものの難しさの他に言語資源の整備など社会的な側面も含めて総合的に考えれば、 英語処理よりは難しいがその次ぐらいに易しい、あるいは環境が整備されている言語だと思います。