桾澤 優希‎ > ‎学会発表‎ > ‎

NLP若手の会 2016


発表内容(ポスター)


発表概要

自然言語の意味をコンピュータが理解するためには入力された語に関連する語を抽出できるような仕組みが必要である.
現在までにこれらの問題に対応するため連想語辞書やシソーラスなどの言語資源が構築されてきた.
しかし連想語辞書では各語に関する狭い範囲での連想語のみしか得られない問題が存在し,
シソーラスにおいては「学校」に対して「登校する」などの関係が得られない.
そこで,文書分類などのタスクへの応用を考え,
ウィキペディアからのデータ等やyahooカテゴリ用いて対象のカテゴリを選定し,
そのカテゴリに属する語をwikipediaのリンク情報を用いて抽出,分類し,辞書化した.
これによって約250カテゴリに対して約10000語を分類した.

発表時に受けた質問とそれに対する所感等

  • レートを文字数で正規化しているなら、対象の単語の長さによって値が変わってしまうのではないか
    • そのとおりですが、UniDicで一単語と限定している以上そこまで大きな差はつか ないと考えそのまま計算に用いた
    • 連想語頻度表を用いて、その単語がそのカテゴリに適しているかを定量的に判断することが可能かも
    • どうやらテキスト形式か何かで買えるらしい
  • カテゴリという概念ではなく関連語抽出としてのシステムを構築したほうが良いかもしれない (Wikipediaのリンクを用いる方法)
    • 関連語の抽出のみを考えるならそれでも良いが、辞書と違い規模が小さくなりかつ精度が落ちる
  • 約1万語を分類しているが、作成した辞書は規模としては大きいのか小さいのか
    • 定量的な判断は不可能、話題に属すると考えられる語は高頻度語よりも中頻度、低頻度のものであるため、どの程度被覆したかでは判断できない
    • 単純な異なり数などが大きければ規模が大きいが、何よりカテゴリの数が十分かどうかを判断しなければならないため、評価が難しいと考えられる。
  • カテゴリを自動で決める方法はないのか
    • Wikipediaのリンクの数などを用いて数えようとしたが、話題となりそうな語が全て上位に来ているわけではないので現時点ではむずかしい
    • 逆にカテゴリを自動で抽出することができればそれに属する語も半自動で取得できるのでおすすめ。
このような辞書は世の中に存在していなく、需要が有ることを確認することができた。
一方でまだ辞書の規模としては小さく、これらを改善する必要が有ることも改めて確認することができた。

発表を通しての所感等

  • ブースターセッションというものがあるのを知らずに言ったため、当日あたふたした
    • 一枚概要みたいなものを用いてポスター発表前に一分ほど全体の前で概要を話すというもの
    • 一枚概要を予めしっかり作り、ある程度話す内容を考えておくと良い
  • 一回あたりの話す時間は長くても問題ない
    • YANS2016では1セッションが110分とNLPと比べ20分長く、かつ発表ポスターの数も少ないため、かなりの人がゆっくりと発表を聞いてくれる。
    • 発表練習時には10-12分くらいに収まるようなポスターを作成し練習しておくと良い。
    • 概要をかいつまんで聞きたい人はその都度言われたらそのようにすれば良い
  • ポスターは予めセロテープか何かでくっつけていくべき
    • 初回の発表は時間がかつかつだったため、ポスターを貼り付けるのに時間がかかり発表開始が遅れた
    • きれいにはっつけたものを折りたたんで持っていくのがベスト
  • かなりの人が聞いてくれるため、様々な意見を聞くことができる
    • 発表時間が長いので、ゆっくりわかりやすく発表できれば、相手方も有益な情報をくれたりする。
発表が長いためゆっくり説明することができる。そのため、有益な情報交換ができると思った。
一方でブースターセッションと呼ばれる1分程度の発表紹介が有ることを知らなかった。
予め内容を頭に入れておき、当日の発表で魅力的な説明ができるようにすると良いと思われる。

Comments