このページの2つのバージョン間の差分を表示します。
両方とも前のリビジョン前のリビジョン次のリビジョン | 前のリビジョン | ||
nlp:日本語の自然言語処理は難しいのか [2021/10/03 16:07] – admin | nlp:日本語の自然言語処理は難しいのか [2021/10/03 16:14] (現在) – admin | ||
---|---|---|---|
行 16: | 行 16: | ||
==== 日本語は英語のように分かち書きされていないから難しい ==== | ==== 日本語は英語のように分かち書きされていないから難しい ==== | ||
これもよく言われます。英語は分かち書き(単語と単語の間に空白を入れる)しているから簡単だ、 | これもよく言われます。英語は分かち書き(単語と単語の間に空白を入れる)しているから簡単だ、 | ||
- | 日本語は[[nlp> | + | 日本語は[[nlp> |
これについてはある程度正しいですが、下記に注意が必要です。以下、空白で区切られた文字列の塊をトークンと呼びます。 | これについてはある程度正しいですが、下記に注意が必要です。以下、空白で区切られた文字列の塊をトークンと呼びます。 | ||
行 26: | 行 26: | ||
* しかも、空白の入れ方に個人差があり、揺れる場合がある。 | * しかも、空白の入れ方に個人差があり、揺れる場合がある。 | ||
- | 以上まとめると、分かち書きする言語は必ずしも簡単とは限りません。 | + | 以上まとめると、分かち書きする言語は必ずしも簡単とは限りません。日本語、韓国語、中国語、英語で |
+ | 比べると、単語分割が難しいのは難しい順に、中国語、韓国語、日本語、英語の順だと思います。 | ||
==== 日本語の形態素解析は難しい ==== | ==== 日本語の形態素解析は難しい ==== | ||
いえ、これも比較の問題で、簡単な側面と難しい側面があります。 | いえ、これも比較の問題で、簡単な側面と難しい側面があります。 | ||
- | 日本語の[[nlp> | + | 日本語の[[nlp> |
ここではそもそも日本語の形態素解析が課題として難しいかどうかを考えます。 | ここではそもそも日本語の形態素解析が課題として難しいかどうかを考えます。 | ||
行 68: | 行 69: | ||
情報処理の観点で言えばちょうど順列と組み合わせの関係に相当し、順列が決まっていると組み合わせの数は | 情報処理の観点で言えばちょうど順列と組み合わせの関係に相当し、順列が決まっていると組み合わせの数は | ||
- | 減るので処理しやすくなります。例えば[[nlp> | + | 減るので処理しやすくなります。例えば[[nlp> |
構文規則をたくさん作らなければならず、一般に複雑になります。 | 構文規則をたくさん作らなければならず、一般に複雑になります。 | ||