研究室‎ > ‎卒業生のみなさまへ‎ > ‎杢 真奈見‎ > ‎出張‎ > ‎NLP2012‎ > ‎

本会議3日目

この日のAは災害時における言語情報処理について。
 
A4-1 能動学習による効率的な情報フィルタリング
安否情報、要請、避難所・物資の情報は災害時に大切。
スピードと信頼性の高い(人手によるチェックが必要)情報を手にするためのフィルタリングを30分で構築。
分類問題に近いが、分類問題はデータを2つに分けるとか。フィルタリングは閾値を越えたようなものだけを取ってくる。
分類器はデータが多く必要だが、ここでは能動学習を使用する。正例にタグ付けをあらかじめ加えることによって、正しいフィルタリングを行い、多くの正例を提供。
 
A4-2 流言情報クラウド:人間の発信した定性情報の抽出による流言収集
流言(間違った情報)が拡散しにくい環境の構築
流言発信前に教える
昨年の災害時は訂正ツイートがなかなか伝わらなかったから。
提案手法:「デマ」といった単語から流言訂正のツイートを見つける。ちょっとでも訂正ツイートが見つかれば流言をカットできる。
判定制度は約80%。
 
A4-4 災害報道文の特徴語抽出 by 砂岡先生
中国語
風評・英雄化・異文化・異言語によっていろいろな災害報道文がある。
 →配布にふさわしい記事を見つけるための特徴語検出(動詞)
 
A4-5 災害時情報への質問応答システムの適用の試み
「一休」の話。
場所に関する質問。
使用データ:郵便番号のデータによる地名の取得と、wikipediaによる上位下位語の取得(○○中学校などは郵便番号のデータにないから)
 
A4-6 Twitterからの被災時の行動径路の自動抽出及び可視化
from(~から)、to(~まで)、method(~で)をそれぞれ共起しやすい表現を使用して検知する。これにより、行動径路の抽出。
methodは精度80%。from,toは30%程度。(地形情報が足りなかったなど)
 
A4-7 多言語資源活用のためのアプリケーション開発と災害環境下での音声明瞭度の改善
多言語を平等に扱う母語主義の皆様。
ネットがなくてもスタンドアロンで使用可能(タフブック)。
 
議論:災害時に行った活動について。

豊橋技大の相田先生
HOPE-JAPANの活動。
 
Googleの賀沢さん
医療現地レポートは処理しきれず、無視や規制がされている現状。
 
東京大学の先生
Tweetの収集。大量データの保存を仲間と行った。
 
A5-3 安否情報ツイートコーパスの詳細分析とアノテーションに関する一考察
ANPI_NLP
ツイートを人手でタグ付け
タグ・・・人の生死・情報提供(インフラや交通機関等)・安否など
 
A5-4 「東日本大震災関連の救助要請情報抽出サイト」構築と救助活動について
災害直後にツイートから救助要請に関するツイートを抽出してまとめるサイトを構築し、それを元に救助活動が行われた。
 
議論
楽天 ツイートコーパスについて
 資源として配布は個人情報の観点から難しい。
今後も災害NLPを続けていきたい。今後も災害は起こるだろうから、その準備を。
Comments