言語商会

差分

このページの2つのバージョン間の差分を表示します。

この比較画面へのリンク

両方とも前のリビジョン前のリビジョン
次のリビジョン
前のリビジョン
nlp:日本語の自然言語処理は難しいのか [2021/10/03 15:39] adminnlp:日本語の自然言語処理は難しいのか [2021/10/03 16:14] (現在) admin
行 16: 行 16:
 ==== 日本語は英語のように分かち書きされていないから難しい ==== ==== 日本語は英語のように分かち書きされていないから難しい ====
 これもよく言われます。英語は分かち書き(単語と単語の間に空白を入れる)しているから簡単だ、 これもよく言われます。英語は分かち書き(単語と単語の間に空白を入れる)しているから簡単だ、
-日本語は形態素解析が必要で難しいという意見です。+日本語は[[nlp>形態素解析:単語分割|単語分割]]が必要で難しいという意見です。
  
 これについてはある程度正しいですが、下記に注意が必要です。以下、空白で区切られた文字列の塊をトークンと呼びます。 これについてはある程度正しいですが、下記に注意が必要です。以下、空白で区切られた文字列の塊をトークンと呼びます。
行 26: 行 26:
     * しかも、空白の入れ方に個人差があり、揺れる場合がある。     * しかも、空白の入れ方に個人差があり、揺れる場合がある。
  
-以上まとめると、分かち書きする言語は必ずしも簡単とは限りません。+以上まとめると、分かち書きする言語は必ずしも簡単とは限りません。日本語、韓国語、中国語、英語で 
 +比べると、単語分割が難しいのは難しい順に、中国語、韓国語、日本語、英語の順だと思います
  
 ==== 日本語の形態素解析は難しい ==== ==== 日本語の形態素解析は難しい ====
 いえ、これも比較の問題で、簡単な側面と難しい側面があります。 いえ、これも比較の問題で、簡単な側面と難しい側面があります。
-日本語の[[nlp>形態素解析:]]は研究が進んでいてすでにツール化されているのでそういう意味では簡単ですが、+日本語の[[nlp>形態素解析:|形態素解析]]は研究が進んでいてすでにツール化されているのでそういう意味では簡単ですが、
 ここではそもそも日本語の形態素解析が課題として難しいかどうかを考えます。 ここではそもそも日本語の形態素解析が課題として難しいかどうかを考えます。
  
行 50: 行 51:
 (ちなみに、上記の日本語も英語もすべて架空の単語です) (ちなみに、上記の日本語も英語もすべて架空の単語です)
  
-=== 日本語は省略が多いから難しい ===+==== 日本語は省略が多いから難しい ====
 これは確かに難しい部分があります。一番困るのは主語の省略で、 これは確かに難しい部分があります。一番困るのは主語の省略で、
  
行 57: 行 58:
  
 みたいな例文で「大丈夫?」の主語は誰が読んでもおじいちゃんですが、コンピューターはこれが理解できず、 みたいな例文で「大丈夫?」の主語は誰が読んでもおじいちゃんですが、コンピューターはこれが理解できず、
-例えば英語に翻訳すると "Are __you__ all right?" になってしまいます。+例えば英語に翻訳すると "Are __you__ all right?" になってしまいます。こういった省略の補完は 
 +研究課題にもなっていていくつかの研究成果はありますが、まだ[[nlp>機械翻訳]]などで実用段階には入っていないのが現状です。 
 + 
 +さて、これが他の言語と比べてどうかと言えば、例えば韓国語では日本語と同程度に省略がありますし、 
 +英語は省略が少ないかわりに代名詞や代動詞(do)が多用されるので全く何もない日本語から見れば楽ですが、 
 +あまり問題の難しさは変わっていない気もします。 
 + 
 +==== 日本語は語順が自由だから難しい ==== 
 +これはある程度正しいです。 
 + 
 +情報処理の観点で言えばちょうど順列と組み合わせの関係に相当し、順列が決まっていると組み合わせの数は 
 +減るので処理しやすくなります。例えば[[nlp>構文解析:|構文解析]]を行う時に日本語は語順の自由度が高いので英語よりも 
 +構文規則をたくさん作らなければならず、一般に複雑になります。 
 + 
 +ただ、他の言語と比べるとまた少し話が変わり、例えば韓国語は日本語と同様の語順の自由度がありますので、 
 +この面での処理の難しさは全く同じです。中国語は日本語・韓国語と英語の中間ぐらいの自由度なので、 
 +語順の多様さという意味では両者の中間ぐらいだと思います。
  
 ==== 日本語は話者が少ない/データが少ない/研究者が少ないから研究が遅れている ==== ==== 日本語は話者が少ない/データが少ない/研究者が少ないから研究が遅れている ====
-いえ、そんなこともありません。確かに英語よりは言語資源も研究者も少ないですが、+いえ、そんなこともありません。確かに英語よりは[[nlp>データ:|言語資源]]も研究者も少ないですが、
 日本語はかなり大きな言語あるいは重要な言語で、例えば言語の経済力を見ると英語、中国語に次ぐ3位です(下記参照)。 日本語はかなり大きな言語あるいは重要な言語で、例えば言語の経済力を見ると英語、中国語に次ぐ3位です(下記参照)。
  
 (感想・要望・情報提供)