SNOW‎ > ‎

SNOW T15:やさしい日本語コーパス

Name in English

  • SNOW T15: Japanese Simplified Corpus with Core Vocabulary

Reference in English

  • Takumi Maruyama and Kazuhide Yamamoto. Simplified Corpus with Core Vocabulary. The 11th International Conference on Language Resources and Evaluation (LREC 2018), (2018.5)
内容
  • 5万文をやさしい日本語(平易な日本語語彙)に書き換えた対訳コーパスです。
    • 本研究室の学生5名がすべて人手で書き換えました。詳しくは下記文献[2]をご参照ください。
  • ここで言う「やさしい日本語」とは、我々が独自に定義したUniDic単語体系の2,000語です。
  • テキストは機械翻訳用の日英対訳コーパスである small_parallel_enja: 50k En/Ja Parallel Corpus forTesting SMT Methods を使用し、このコーパスの各日本語文にやさしい日本語を付与する形でコーパスを作成しました。
    • この結果、本コーパスには英訳も付与されていますので、英語、日本語、やさしい日本語の3者が文単位で対応した対訳コーパスになっています。よって英語からやさしい日本語(あるいは逆方向)への日英対訳コーパスとしても利用可能です。
    • small_parallel_enja において ID:30011の原文は「飛行機の席はは予約しましたか。」となっていましたので、本コーパスでは「飛行機の席は予約しましたか。」に修正しました。これ以外の元コーパスからの原文(日本語、英語)の変更はありません。
ダウンロード
  • XLSXファイル (3.38MB) 
    • 2018/2/28 ファイルを差し替えました。
    • 2018/2/27 公開

利用制限・免責事項
発表文献
  • [1] Takumi Maruyama and Kazuhide Yamamoto. Simplified Corpus with Core Vocabulary. The 11th International Conference on Language Resources and Evaluation (LREC 2018), (2018.5)
  • [2] ⼭本 和英, 丸⼭ 拓海, ⾓張 ⻯晴, 稲岡 夢⼈, ⼩川 耀⼀朗, 勝⽥ 哲弘, 髙橋 寛治. やさしい⽇本語対訳コーパスの構築. 言語処理学会第23回年次大会, pp.763-766 (2017.3) [PDF]
フィードバック
  • 本公開に対する責任はすべて山本にあります。
  • 本公開に関するあらゆるご意見・苦情・ご感想は山本にお送りください。

Comments