研究室‎ > ‎卒業生のみなさまへ‎ > ‎杢 真奈見‎ > ‎出張‎ > ‎NLP2012‎ > ‎

発表@NLP2012

題目
「やさしい日本語」のための語彙制限の検討
 
概要
1.研究背景
 「やさしい日本語」とは、日本に在住していて、日本語ができない外国人のための必要最低限の日本語である。本研究では生活するために重要な情報を多く含んでいる公的文書(市役所や病院、学校等の公共施設で配られる文書)を対象としている。
2.研究目的
 日本語WordNetを用いた語彙制限により文書をやさしくし、外国人の方々が理解できる語彙制限について検討する。
3.語彙制限
 我々は意味を包括でき、内容が伝わる意味の階層を探すため、まずは日本語WordNetに含まれる内容語を一つ上位の語へ置き換えた。書き換えは公的文書と一般文書に対して行った。このうち一般文書は新聞記事を使用した。
4.評価実験
 「やさしい日本語」コーパスから15文、新聞記事から10文を無作為に抽出し、形態素解析器によって分かち書きを行い、日本語WordNetと照合した。評価者は7人の日本語初学者である。
    評価①:それぞれの意味がわかるか ・・・〇の有無
    評価②:やさしいと感じる順位 ・・・数値による順位付け
    評価③:わからない語彙 ・・・[ ]によって囲む
5.評価結果
 公的文書、一般文書共に、上位語へ置き換えがやさしくすることに有効であった。 そして新聞記事のような一般文書の方が上位語へ置き換える処理がやさしくすることに有効であった。
 
質疑応答
 
〇上位語を使えば「やさしい」のか?
 もちろん上位語がやさしいとは限りません。抽象的になればなるほど、理解ができなくなる可能性もあります。
ですが、上位語を用いることで意味を包括できる少ない語を求め、それを非母語話者が学習した上でそれで表現された文を読むと考えれば、語は少なければ少ないほど覚えやすいとも考えられるし、「やさしくなる」と考えられる。
 また、自然言語処理として「基本語彙」を見直してみるということもありだと思います。
〇評価者がN2だが、これは日本語能力が低いといえるのか?
 「やさしい日本語」では使用語を旧日本語能力試験2級レベルとしています。よって、本研究でもこれに合わせました。
〇制限言語を関連研究としてあげているが、語の制限だけなのか?
 制限言語を作る方法として語の制限と文法の制限があります。しかし、本研究では語の制限にだけ焦点を当てました。
〇「やさしい日本語」コーパスは公開されているか?
 使用したコーパスは公開されていません。現在つくっている大規模な公的文書の「やさしい日本語」コーパスも現在は公開されていませんが、著作権の問題など公開するための準備も同時に進めています。
〇今回の評価者は非漢字圏(マレーシア国籍)とあるが、何故か。
 私の友人に頼んだからです。
        ■漢字圏との比較をすると面白いかも。(漢字圏は漢字が多いと有利だから)
         今後検討します。
         本研究の結論ではサ変名詞の数が元より多く、学習量が限定されるため、置き換えが必要としましたが、漢字圏の方に評価してもらえば結論が変わる可能性があります。
        確かに、漢字圏と非漢字圏それぞれで別の結論を出す必要もあるかもしれません。
〇日本語WordNet以外は使わないのか?
 今のところ、EDRやWikipediaと比較することを検討中です。
 複合語で意味がわからなくなった語があったことに関して、日本語WordNetに登録されている語が少ないことも原因としてあげられるからです。
 〇日本語WordNetの登録後数は?
 発表では答えられなかったのですが、93,834語です。(http://nlpwww.nict.go.jp/wn-ja/より)
        ■日本語語彙体系を使用してみては?
         EDR、Wikipediaと共に各種資源について検討したいと思います。
〇「医療機関」なら「医療」のみを置き換えるといいかも。(先行研究より後接語を置き換えない?)
 検討します。
〇評価②のやさしいと感じる順位はなぜ相対評価なのか?これでやさしさがわかるのか??
 相対評価の理由は、それが評価者にとって一番わかりやすい順位の付け方だと思ったからです。
ただし、これだけで本当にやさしいかは図れないと考えており、この発表では省略しましたが、論文では評価①それぞれの意味がわかるかと合わせた評価も行っております。
 
Comments