文書の過去の版を表示しています。
単語を同定する処理。日本語の場合は分かち書きされていない言語なので、どの文字からどの文字までが単語なのかを知る必要がある。また、その単語がどのような単語(品詞や読みなど)も知る必要がある。以上まとめると、形態素解析はいくつかの処理に分解できる。
日本語の場合は以上を一つの処理(ツール)で行うためまとめて形態素解析と呼んでいる。英語の場合は単語分割と品詞付与は別の処理と見なす。よって、形態素解析を英語で説明するときは morphological analysis でも間違いではないが、分かりやすさという意味では tokenization + part-of-speech tagging と呼ぶことをおすすめします。
形態素解析は、文字通り言えば「形態素」に分解することだが、自然言語処理の「形態素」は日本語学とは異なる意味で使っているので注意(詳しくは長くなるので省略)。先人が語義を誤ってこうなったのかあえてこう呼んでいるのかは不明。
以下では、単語分割を行う単語分割器(トークナイザ)も含めて紹介する。
Konoha | Konoha | 複数の形態素解析器を統一したコードで書くためのラッパー |
---|---|---|
morpheme-match | https://github.com/azu/morpheme-match | 日本語を形態素解析したトークンを元に、文章にマッチするかを判定する |
この名前空間のページ: