西山 浩気‎ > ‎B3ゼミ‎ > ‎

2016/01/07 ~日本語における形態素解析について~

概要
 日本語の場合、形態素とは自立後、付属語、接頭辞や接尾辞などでわけられた言語の意味の最小単位である。その形態素を解析するために形態素解析という手法をラティス構造を用いて行うが、組み合わせ爆発が生じてしまうためビタビアルゴリズムを用いてそれを解消する。ラティス構造を形成するためには単語辞書に解析する文中の単語が含まれている必要があるが、もしもない場合は未知語として処理する。未知語を処理する方法の例として入力文の全ての部分に対して擬似的なノードを作ること、未知語を単語辞書に含まれる語として変換する方法がある。また、未知語を登録するにあたって未知語は非常に多い(Wikipediaのタイトル数140万語程度)ため、ある基準を設けることで自動で単語辞書へ追加することができる。

発表内容
 発表に使用したスライドと発表の動画

    #動画があがり次第、編集#

    

Comments