研究室‎ > ‎卒業生のみなさまへ‎ > ‎杢 真奈見‎ > ‎出張‎ > ‎NLP2012‎ > ‎

チュートリアル

2012年3月13日(火)
 
〇大規模言語資源時代の意味談話処理 by 乾先生(東北大学)
私にとって難しかったので、とりあえず乾先生のスライドの最終版が載ってるHPのアドレスだけ載せさせていただきます。
〇『現代日本語書き言葉均衡コーパス』による日本語研究の展開 by 山崎先生(国立国語研究所)
はじめに
2006年度から構築してきたという『現代日本語書き言葉均衡コーパス』(Balanced Corpus of Contemporary Written Japanese、以下、BCCWJ)が2011年に完成し公開された。
1990年以前では、言語学ではなかなかコーパスを使用した研究が進んでなかった。主流の研究が別にあったことや古典の研究以外では大規模データを構築・共有する発想がなかった、そしてコンピュータを使える人文系の言語研究者が限られたことが、コーパスの構築が進まなかった理由のようです。
だが1990年代からコーパスをタイトルに含む文献数が増加している。だがそこで使われる新聞記事データベースや『新潮文庫の100冊』などは特性等が明らかになっておらず、使用に問題があると指摘されているらしい。
そこに2004年の『日本語話し言葉コーパス』(Corpus of Sopntaneous Japanese、略称CSJ)が話し言葉コーパスとして現在でも世界最高レベルの品質で公開され、2005年には『太陽コーパス』が明治末から昭和初期にかけての書き言葉でできている。
 
BCCWJの設計方針
1.現代日本語の縮図となるコーパス
代表性とは、母集団の状況が適切に、過不足なく反映されるという意味。ランダムサンプリングの手法による。
2.汎用的な目的に供するコーパス
言語研究(語彙・文法・文字)以外にも、自然言語処理、日本教育や国語教育、辞書編集、国語政策などの分野でも活用できるよう設計している。多様な日本語・ジャンルのデータが使用されている。
3.公開可能なコーパス
4.既存のコーパスとの調和
『太陽コーパス』『日本語話し言葉コーパス』との整合性を保つ。
 
BCCWJの概要
出版(生産実態)サブコーパス          約3500万語        書籍、雑誌、新聞
図書館(流通実態)サブコーパス       約3000万語        書籍
特定目的(非母集団)サブコーパス    約3500万語        白書、教科書、広報誌、ベストセラー、Web掲示板、ブログ、法律、国会会議録
出版時期はそれぞれ異なる。
定義
現代・・・出版が明治以降
日本語・・・外国語が混じった文は段落単位でカット。
書き言葉・・・文字で記録された言葉。インタビューの書き起こしなども含む。
サンプルのタイプ
固定長サンプル・・・文脈に関係なく1000字でカット。
可変長サンプル・・・文章のまとまりで長さを決める。ただし、国会会議録以外は1万字を上限。
1度のサンプリングで当たった同一ヶ所から固定長と可変長の2つをサンプル。可変の中に固定が包括されている場合、一部かぶっている場合、包括されていない場合がある。
また、出版サブコーパスと図書館サブコーパスそれぞれで同じ書籍が入ってる場合があると、同じ文書が入ってる場合がある。
 
BCCWJの公開方法
少納言(http://shonagon.ninjal.ac.jp//)・・・お試し版的なもの。無償で誰でも利用できる。
中納言(https://chunagon.ninjal.ac.jp/)・・・少納言よりもイロイロとできる。本来は有償だが、当面は無償とのこと。
DVDによる全文公開・・・少納言、中納言と違って検索機能はついてないが、データは全部入ってる。XMLファイルとか。エクセルも入ってるらしいが、データ量が多すぎてエクセルは開かないとか。
 
言語学と自然言語処理研究との協力を!!!!!という感じ。
Comments