このページの2つのバージョン間の差分を表示します。
両方とも前のリビジョン前のリビジョン | |||
nlp:日本語の自然言語処理は難しいのか [2021/10/03 16:09] – admin | nlp:日本語の自然言語処理は難しいのか [2021/10/03 16:14] (現在) – admin | ||
---|---|---|---|
行 16: | 行 16: | ||
==== 日本語は英語のように分かち書きされていないから難しい ==== | ==== 日本語は英語のように分かち書きされていないから難しい ==== | ||
これもよく言われます。英語は分かち書き(単語と単語の間に空白を入れる)しているから簡単だ、 | これもよく言われます。英語は分かち書き(単語と単語の間に空白を入れる)しているから簡単だ、 | ||
- | 日本語は[[nlp> | + | 日本語は[[nlp> |
これについてはある程度正しいですが、下記に注意が必要です。以下、空白で区切られた文字列の塊をトークンと呼びます。 | これについてはある程度正しいですが、下記に注意が必要です。以下、空白で区切られた文字列の塊をトークンと呼びます。 | ||
行 26: | 行 26: | ||
* しかも、空白の入れ方に個人差があり、揺れる場合がある。 | * しかも、空白の入れ方に個人差があり、揺れる場合がある。 | ||
- | 以上まとめると、分かち書きする言語は必ずしも簡単とは限りません。 | + | 以上まとめると、分かち書きする言語は必ずしも簡単とは限りません。日本語、韓国語、中国語、英語で |
+ | 比べると、単語分割が難しいのは難しい順に、中国語、韓国語、日本語、英語の順だと思います。 | ||
==== 日本語の形態素解析は難しい ==== | ==== 日本語の形態素解析は難しい ==== |