研究室‎ > ‎卒業生のみなさまへ‎ > ‎杢 真奈見‎ > ‎出張‎ > ‎NLP2012‎ > ‎

本会議2日目

B3はコーパス日本語学についてとしており、BCCWJを推してました。
 
B3-1 コーパスを利用した基本動詞ハンドブック作成―コーパスプラウンジングツールNINJAL-LWPの特徴と機能―
日本語学習者に動詞を教える。
・基本動詞の振舞い、意味拡張・類義語について
・母語との類似・相違点
・プロトタイプ
・日中・韓・英・マラーティー
コーパス:BCCWJ
検索ツール:NINJAL-LWD
外国人学習者の日本語誤用例集をツールで解析。
 
この後はBCCWJやツールについてのお話。
コーパス:BCCWJについて。
ex) 「靴をはく」における「はく」の共起語
青空文庫・・・はかま
BCCWJ・・・ズボン
つまり、青空文庫は100年前とかの古い日本語であり、BCCWJは最近の日本語ですよって話。
 
B3-2 BCCWJで知る東アジア漢字圏四字成語の受容と変容
砂岡先生
4アジア大学(日本、台湾、中国、韓国)で中国語の古典データベースを共同利用(教育用など)
古い文献や新聞の成語データベース(5万語)
台湾のコーパス(1万語)・成語(1万語)
 ⇒ よく使われる成語3000語
  →韓国・日本で統計
   ⇒中台韓日成語 マルチ成語辞典を作る。
 
B3-3 決定木に基づく多義語分析:「明らか」を例に
「明らか」は意味で4種類に分けられる。先行要素や後属要素で分けることもできる?
他はBCCWJの使い方の提示にも見えた。
 
B3-4 前後の段落との共起を利用した文章の結束性の測定
カタカナの辞書引きシステム
Unidicは本来、辞書にたくさんの形を登録している。
それを自動対応させる…ってことかな。
    Unidicの語形のゆれ    86.1%
    Unidicの表記ゆれ        99.4%    対応可
 
C3-5 テキストの分野に応じた意味を表示する辞典選択システムの評価
検索エンジンは量を持っていて、辞典は質を持っている。提案手法はその両方を合わせ持つ。
ex)    継承・・・国語辞典とコンピュータ用語としての意味がある。
        フルーツポンチ・・・国語辞典と芸能人名としての意味がある。
テキスト入力→分かち書き→用語入力→カテゴリ推定→意味出力
評価結果:専門用語が多い分野ではよい結果。
 
C3-6 異言語の語彙概念の対応付けのための手がかり情報の有効性評価
日本語WordNetと元のWordNetであるPWNは対応しているから、EDRとPWNも組み合わせてみようってもの。
 
C3-8 日本語の動詞性複単語表現辞書
C3-9 日本語の副詞性複単語表現辞書
油を売る、長い目で見る、手を焼くなどの動詞性複単語表現と
哀悼の意をささげる         などの副詞性複単語表現を40年間集めたというもの。
他にもいろいろな機械翻訳の際にうまく訳せないような表現をたくさん集めていたらしい。
 
ポスター
P2-6 VOD講義用字幕文の簡易化とやさしい表現への変換手法
やさしい表現・・・日本語能力試験の1級・2級の漢字を使用した動詞を国語辞書(1個目の説明文の最後の動詞)に言い換え。
これは換言後も2級のままなものもある。
評価は日本人1名と中国人(留学生4名と現地人1名)
簡易化・・・文節ごとに区切り、それぞれの重要度を日本語語彙表を元に計算して、重要じゃないものを削除。

P2-8 POST-AL:Part-of-Speech Tagger for Ainu Language
アイヌ語の本をコーパスとして使用。

P2-29 小学生のための新聞読解支援に向けた重要語抽出の検討
専門語や重要語を式より求めて、それと読売新聞の小学生用のノートなるものの重要語と照らし合わせて評価する。

P2-35 Simplyfying Text Processing with Grammatically Aware Fegular Expressions
外国人のために、文章を分かち書きして木構造化し、さらにそれぞれの品詞を英語でつけるもの。

Comments