このページの2つのバージョン間の差分を表示します。
両方とも前のリビジョン前のリビジョン次のリビジョン | 前のリビジョン | ||
nlp:日本語の自然言語処理は難しいのか [2021/10/03 15:47] – admin | nlp:日本語の自然言語処理は難しいのか [2021/10/03 16:14] (現在) – admin | ||
---|---|---|---|
行 16: | 行 16: | ||
==== 日本語は英語のように分かち書きされていないから難しい ==== | ==== 日本語は英語のように分かち書きされていないから難しい ==== | ||
これもよく言われます。英語は分かち書き(単語と単語の間に空白を入れる)しているから簡単だ、 | これもよく言われます。英語は分かち書き(単語と単語の間に空白を入れる)しているから簡単だ、 | ||
- | 日本語は[[nlp> | + | 日本語は[[nlp> |
これについてはある程度正しいですが、下記に注意が必要です。以下、空白で区切られた文字列の塊をトークンと呼びます。 | これについてはある程度正しいですが、下記に注意が必要です。以下、空白で区切られた文字列の塊をトークンと呼びます。 | ||
行 26: | 行 26: | ||
* しかも、空白の入れ方に個人差があり、揺れる場合がある。 | * しかも、空白の入れ方に個人差があり、揺れる場合がある。 | ||
- | 以上まとめると、分かち書きする言語は必ずしも簡単とは限りません。 | + | 以上まとめると、分かち書きする言語は必ずしも簡単とは限りません。日本語、韓国語、中国語、英語で |
+ | 比べると、単語分割が難しいのは難しい順に、中国語、韓国語、日本語、英語の順だと思います。 | ||
==== 日本語の形態素解析は難しい ==== | ==== 日本語の形態素解析は難しい ==== | ||
いえ、これも比較の問題で、簡単な側面と難しい側面があります。 | いえ、これも比較の問題で、簡単な側面と難しい側面があります。 | ||
- | 日本語の[[nlp> | + | 日本語の[[nlp> |
ここではそもそも日本語の形態素解析が課題として難しいかどうかを考えます。 | ここではそもそも日本語の形態素解析が課題として難しいかどうかを考えます。 | ||
行 63: | 行 64: | ||
英語は省略が少ないかわりに代名詞や代動詞(do)が多用されるので全く何もない日本語から見れば楽ですが、 | 英語は省略が少ないかわりに代名詞や代動詞(do)が多用されるので全く何もない日本語から見れば楽ですが、 | ||
あまり問題の難しさは変わっていない気もします。 | あまり問題の難しさは変わっていない気もします。 | ||
+ | |||
+ | ==== 日本語は語順が自由だから難しい ==== | ||
+ | これはある程度正しいです。 | ||
+ | |||
+ | 情報処理の観点で言えばちょうど順列と組み合わせの関係に相当し、順列が決まっていると組み合わせの数は | ||
+ | 減るので処理しやすくなります。例えば[[nlp> | ||
+ | 構文規則をたくさん作らなければならず、一般に複雑になります。 | ||
+ | |||
+ | ただ、他の言語と比べるとまた少し話が変わり、例えば韓国語は日本語と同様の語順の自由度がありますので、 | ||
+ | この面での処理の難しさは全く同じです。中国語は日本語・韓国語と英語の中間ぐらいの自由度なので、 | ||
+ | 語順の多様さという意味では両者の中間ぐらいだと思います。 | ||
==== 日本語は話者が少ない/データが少ない/研究者が少ないから研究が遅れている ==== | ==== 日本語は話者が少ない/データが少ない/研究者が少ないから研究が遅れている ==== |