研究室‎ > ‎卒業生のみなさまへ‎ > ‎真嘉比 愛‎ > ‎文献紹介‎ > ‎NLP2012‎ > ‎

快適なニュース記事検索のための記事分類および自動タグ付け手法

TF-IDFは珍しい単語にタグがつきやすくなる
 → コサイン類似度による類似記事を収集し,頻出単語をタグ付け


トピックを一つのタグで表現するのはかなり難しい.タグの集合で扱う方が良いだろう
ニュース全体を俯瞰できるうまいタグを用意することを考えた方がいい
コサイン類似度でやる場合には,対応としている単語の種類はどんなものなのか
 → 形態素解析をし,一般名詞のみを対象としている
キーワード抽出関係の論文をサーベイする必要があるだろう
クラスタリングをする際の種はどのように選んでいるのか?
 → 類似度が低い記事を用いてクラスタリングしている(人手は使っていない?)
Comments