===== 品詞付与 ===== ==== 品詞付与とは ==== 与えられた単語列に対して、各単語の品詞を同定する処理のこと。[[形態素解析:]]の一部。英語では part-of-speech taggingと言う。 仮に各単語に一つの品詞しか可能性がなければ(単語ー品詞の対応関係を予め辞書化しておくことで)ただの辞書引きするだけでよく、何も問題はない。問題なのは品詞の多義性がある場合で、[[:曖昧性]]を解消する必要がある。 === 英語の品詞付与 === 英語は日本語よりも多品詞が多く、例えば有名な Time flies like an arrow. の例文では * time は名詞、動詞 * fly は名詞、動詞 * like は動詞、前置詞 などの可能性があるから、「時間蝿という蝿は矢が好き」みたいな解釈もできてしまう。 === 日本語の品詞付与 === 日本語は格助詞や[[:活用]]を持つ言語なのでもともと品詞の多義性は少ない(=品詞付与は比較的容易である)。例えば、 罟悳しい襍枳は閔薨した。 みたい文があったとして、我々は全く意味が分からなくても「罟悳しい」は形容詞、「襍枳」は名詞、「閔薨した」は動詞であることが容易に分かる。 さらに、日本語の[[:形態素解析]]辞書の一部は品詞の多義性を辞書で吸収してしまっている。例えば、「明日は晴れだ」の「明日」は名詞、「市役所は明日行く」の「明日」は本来副詞となるはずだが、どちらの文も[[形態素解析:juman]]辞書は名詞(時相名詞)、[[:形態素解析:IPAdic]]も名詞(副詞可能)と解析される。これによって見かけ上品詞付与の精度は向上するが、これら単語に対して名詞か副詞かの判断を放棄していることを意味する。言い換えれば、この品詞付与の仕事を[[構文解析:]]に後回しして、構文解析を難しくさせている気がする。 ==== 参考 ==== * [[http://www.unixuser.org/~euske/doc/postag/|形態素解析ツールの品詞体系]] ==== 記事 ==== * 2021-05-30 | (動画) [[https://www.youtube.com/watch?v=873ThcYY6QA|日本語の文章をPythonで品詞分解してみた【自然言語処理】【初心者向け】]]