丸山 拓海‎ > ‎

LREC2018 発表の総括

研究概要
語彙制限のある平易化コーパス(50,000文)を構築した。
本コーパスは, 語彙制限があるにも関わらず, 人手評価により流暢性・意味保持性について高い評価が得られた。
また, 語彙制限により, アノテータ間の一貫性を保つことが可能となった。

以下に本研究で構築したコーパスの特徴を示す。
  1. 手作業で平易化, 原文と平易文の対応付けが行われている。
  2. 平易文は我々が選定した2,000語のみで構成されている。



■ 発表の総括
 "Corpus Creation, Annotation, Use(1)"というsessionでの発表だったからか、「今後このコーパスをどのように利用するのか」といった質問が多かった。
また、「日本語のSimple Wikipediaを作って欲しい」, 「文の長さや語彙についてNHK News web easyと比較して見れば?」などのコメントを頂いた。
日本語についてある程度知識を持った人が話を聞きに来てくれることもしばしばあった。




主な質問内容について
      1. 今後このコーパスをどのように利用するのか?
           "文単位での自動平易化"
           平易化というタスク自体の説明を求められることも多々あった。
   
      2. 基礎語彙をどのように選択したのか?
          人手で選定を行った。選定の基準は、「幅広い表現を網羅できる語」, 「平易な語」とした。

      3. 平易化作業はどのように行ったのか?
          やさしい日本語チェッカーを利用して、作業を行った。
          やさしい日本語チェッカーとは、入力文を単語単位に分割し基礎語彙に含まれている語かどうかを解析するものである。
          2,000語に含まれていない語に着目し、可能な限り同じ意味となるように、2,000語のみで書き換えた。

Comments