研究室‎ > ‎卒業生のみなさまへ‎ > ‎真嘉比 愛‎ > ‎文献紹介‎ > ‎NLP2012‎ > ‎

エッセイコーパスを用いたテキスト著者の性別推定

エッセイの著者の性別推定


なぜエッセイデータを扱ったのか?
blogのほうが著者の個性が出るのでは?コメント情報などの付属情報も扱える
 → テキストデータだけでやりたかった
年代や家族の有り無しを推定しようとすると,意味の
新たに加えていくとしたらどういうfeatureがあるのか?
 → 年齢も可能だと考えられる
 → 精度も考えるとしたら,新たな素性を考えることも重要

※blogじゃなくてエッセイを扱うことの意味
 → blog情報の信頼性問題がある.はっきりと性別が正しいデータを扱いたい
 → プロフェッショナルな作家が書いたテキストを扱いたい.おそらくアマチュアのほうが簡単
 → どのくらいの年代の人が書いたかはトライする.その先何ができるかは今後の課題
 → やりたいのはテキストだけからやりたい.それ以上プラスαの情報を扱うことは考えていない
Comments