研究室‎ > ‎卒業生のみなさまへ‎ > ‎真嘉比 愛‎ > ‎文献紹介‎ > ‎NLP2012‎ > ‎

probabilistic Polynomial Semantic Indexing の提案とテキストジャンル推定への適用

pPSIを実データでテキストジャンル推定へ適用するとどうなるのか検討

PSIとは?
 → 多項意味索引
 → クエリに対するWebページの順位付け手法
 ↓
pPSI
 → 確率的多項意味索引

文書分類において,線形マルチクラス分類器に対して,全体的に精度が悪くなっている


確率にしていても,識別するときはPSI?なぜ確率にしたのか?
 → クラス分類は確率で表されるべきではないかという主張がある
対数線形モデル(CRF)との違いは?
 → CRFの場合は,素性に対してベクトルをかえる.この場合は,行列をかけて潜在空間に写像して考えている
精度を評価するときにあるテキストが複数のジャンルにまたがっているということはないのか?
 → 毎日新聞のジャンルの中でどのジャンルに分類されているかを基準としている(=今回そういった例はない)
あるテキストが一意にそのジャンルに属しているとはいえないのでは?割合のものも出せたら嬉しい
 → そういったものは今回考えていない.
Comments