研究室‎ > ‎卒業生のみなさまへ‎ > ‎真嘉比 愛‎ > ‎文献紹介‎ > ‎NLP2012‎ > ‎

大規模言語資源時代の意味談話処理

 著者 乾 健太郎
 タイトル 大規模言語資源時代の意味談話処理
 学会 言語処理学会 第18回 年次大会 チュートリアル T-a
 ページ pp.1 - 20 (※ただし発表資料とは異なる)
 日付 2012.3.13
 URL ※最新版資料へのリンク

意味解析とは?
 → テキストをある種の意味表現に直すこと

大規模言語資源時代の意味談話処理
 → 大規模言語資源のインパクトに焦点をあてる(大きく分けて3つ)
 1. 個々の部分問題において外部資源の利用
  ・訓練事例のデータスパースネスに対応(方法論的には従来の延長)
   ※詳細はなし
 2. 意味解析モデル構築と知識獲得の融合
 3. 実応用の広がり
   ※詳細はなし

*意味解析を情報抽出で考える
情報抽出:
 ドメインを区切り,少数の意味クラス・談話クラスだけを考える(応用指向的・垂直的)
 意味クラス付きのパターンを考えればできるのではないか
  → 解析モデルと知識獲得がいったい
  → パターンベースの情報抽出(以下の3つを考えることで,知識獲得を行う)
      知識1:関係を表すパタン
      知識2:関係パタンの言い換え
      知識3:語の意味クラス
 ↓
 ↓ 情報爆発時代になって・・・
 ↓
単一文書 →Web時代→ 複数文書(Web)情報抽出
知識獲得 →大規模化→ 知識獲得
パタンのカバレッジ,関係の種類,クラス数が十分に増える
 → 十分に他種類で十分にオープンなクラスで出来る

------------------------------
bootstrapping
意味ドリフトをどう解決するか?(Never-Ending Language Learner)
 → 多用な手がかりを併用
 → 意味クラス間の排他制約
 → 意味クラスの制約
 → 関係間の依存関係
------------------------------

課題:
・抽出対象は明示的な関係のみ
・モダリティ(事実性),時間,量化等との統合
 ↓
一般関係認識としての意味談話解析
 (従来の意味解析に相当) 一般関係認識のためのパタンを獲得 → 明示的に書かれた関係をパタンで抽出
(従来の談話解析に相当) 非明示的な関係を同定

まだほとんど研究がされていない.
・Semantic enrichment
・論理ベースのアプローチ
  テキストに埋め込まれた非明示的な関係=明示的な情報(観察)に対する説明(仮設)
スケーラブルな推論エンジン
DARPA

モダリティはどう扱うのか?
 モダリティのバリエーションをパタンのバリエーションだけでは扱えない
評価関数ってどんなものなのか
 なるべくいい仮説が残るような評価関数
 → 人によって意見が分かれるところ
    生成問題なので評価が難しい.ある程度みんなが納得するような評価にどう落としこむかが課題


実体/関係のクラスをどう決めるのか
 一般化(クラスの粒度)のさじ加減が非常に難しい
1. 固定のセット
 ドメイン毎?などに人間が設計
 → ドメインオントロジーとテキストの対応関係を考える
2. クラス粒度を自動選択
3. 文脈類似度によるクラスタリング
4. クラスタも作らない
  Compositional Distributional Semantics

パタンの定義は?
 → 素朴な意味でのパタンからどんどん一般化してきている
    もしかするとパタンというのはもう相応しくないのかもしれない
 → 各関係をとる手がかりのfeatureの組み合わせ.従来のような教師ありでfeatureの重みを決めるのではなく,
   半教師あり学習

Comments