SNOW‎ > ‎

SNOW E4:語彙平易化評価セット

Name in English
  • SNOW E4: evaluation data set of Japanese lexical simplification
Reference in English 
  • Tomoyuki Kajiwara and Kazuhide Yamamoto. Construction of Evaluation Data Set of Japanese Lexical Simplification.  Proc. of 21th Annual Meeting of Association for Natural Language Processing, (to appear) (written in Japanese) 

内容

  • 日本語の語彙平易化技術の性能評価のためのデータセットを構築しました。
    • 語彙平易化とは、文中の難解な語を単語単位でより平易な同義語に置換する技術です。
    • 語彙平易化技術は、子どもや言語学習者をはじめとする幅広い読者の文章読解を支援します。
    • ここでは語彙平易化タスクを、文脈中での対象語の語彙的換言を平易な順に並び替えるタスクと考えています。
  • 本評価セットは、下記の2件の論文で説明されている英語の評価セットを参考にして構築しました。
    • Lucia Specia, Sujay Kumar Jauhar, and Rada Mihalcea. Semeval-2012 task 1: English lexical simplification. In Proceedings of the 6th International Workshop on Semantic Evaluation (SemEval-2012), pp. 347-355, 2012.
    • Jan De Belder and Marie-Francine Moens. A dataset for the evaluation of lexical simplification. In Proceedings of the 13th International Conference on Computational Linguistics and Intelligent Text Processing (CICLing-2012), pp. 426-437, 2012.
  • 本言語資源を用いることで、語彙的換言や語彙平易化のアルゴリズムの自動評価(精度・再現率・F値の計算)が可能となります。
  • 本言語資源は、クラウドソーシングを用いてのべ500人(語彙的換言250人+語彙平易化250人)の作業者によって作成されました。
    • クラウドソーシングによって作成し、一般公開された初めての日本語言語資源となります。
  • 規模の比較
     評価セット 総文数 名詞(%) 動詞(%) 形容詞(%) 副詞(%)
    (Specia et al., 2012) 300 80(26.7) 80(26.7) 90(30.0) 50(16.7)
    (De Belder and Moens, 2012) 430 100(23.3) 60(14.0) 160(37.2) 110(25.6)
    本評価セット 2,330 630(27.0) 720(30.9) 500(21.5) 480(20.6)
詳しくは下記の関連文献[1][2]をご覧ください。

ダウンロード


ファイル形式

  • 本言語資源は、3つのシートから構成されています。
    • 文脈データ
    • 語彙的換言データ
    • 語彙平易化データ
  • 文脈データ
    • ID, 対象語, 文脈
    • 820, 悪気, 親は悪気で言ったわけではなく、子供をあやすということを本当に知らなかった様子。
      • この文脈中でこの対象語を換言したものが、語彙的換言データのID:820です。
      • それらを難易度で並び替えたものが、語彙平易化データのID:820です。
  • 語彙的換言データ
    • ID, 対象語, 換言1 投票数1, 換言2 投票数2, 換言3 投票数3, ・・・
    • 820, 悪気, 意地悪 1; 悪い考え 1; 悪意 4;
      • 順番に意味はありません。
      • 投票数は、5人の作業者のうちその換言を回答した人数を表します。
  • 語彙平易化データ
    • ID, 対象語, 換言, 換言, 換言, ・・・(平易な順)
    • 820, 悪気, {意地悪, 悪意} {悪気} {悪い考え}
      • 左のグループほど平易、右のグループほど難解な表現です。
      • 同じグループに属する複数の表現は、等しい難易度を持ちます。

利用制限・免責事項

  • 利用制限は特にありません。
  • 再配布は禁止します。
  • 本研究室は、本言語資源の内容に関する完全性、正確性、適用性、有用性などいかなる保証も行いません。 また、本研究室は本言語資源の提供の遅延、もしくは中断、または本言語資源の利用、もしくは利用不能に起因して本人または他の第三者が被った損害に対して一切の責任を負いません。
  • 外部発表の際は下記の関連文献[1]を引用いただけると助かります。

関連文献

  1. 梶原 智之, 山本 和英. 日本語の語彙平易化の評価セットの構築. 言語処理学会第21回年次大会, (2015.3予定) [原稿] [スライド]
  2. 梶原 智之. 文章読解支援のための語彙平易化. 長岡技術科学大学修士論文 (2015.3予定) [原稿] [スライド]

フィードバック

  • 本公開に対する責任はすべて山本にあります。
  • 本公開に関するあらゆるご意見・苦情・ご感想は山本または梶原にお送りください。

Comments