言語商会

言語商会旧研究室SNOW

SNOW T15:やさしい日本語コーパス

Name in English

  • SNOW T15: Japanese Simplified Corpus with Core Vocabulary

Reference in English

  • Takumi Maruyama and Kazuhide Yamamoto. Simplified Corpus with Core Vocabulary. The 11th International Conference on Language Resources and Evaluation (LREC 2018), pp.1153-1160 (2018.5) [原稿] [ポスター] [概要]

内容

  • 5万文をやさしい日本語(平易な日本語語彙)に書き換えた対訳コーパスです。
    • 本研究室の学生5名がすべて人手で書き換えました。詳しくは下記文献[2]をご参照ください。
    • 本コーパスとは別に、約3.5万文のSNOW T23:やさしい日本語拡張コーパスも作成しました。
  • ここで言う「やさしい日本語」とは、我々が独自に定義したUniDic単語体系の2,000語です。
    • 詳しくはやさしい日本語の解説ページをご覧ください。
  • テキストは機械翻訳用の日英対訳コーパスであるsmall_parallel_enja: 50k En/Ja Parallel Corpus forTesting SMT Methods を使用し、このコーパスの各日本語文にやさしい日本語を付与する形でコーパスを作成しました。
    • この結果、本コーパスには英訳も付与されていますので、英語、日本語、やさしい日本語の3者が文単位で対応した対訳コーパスになっています。よって英語からやさしい日本語(あるいは逆方向)への日英対訳コーパスとしても利用可能です。
    • small_parallel_enja において ID:30011の原文は「飛行機の席はは予約しましたか。」となっていましたので、本コーパスでは「飛行機の席は予約しましたか。」に修正しました。これ以外の元コーパスからの原文(日本語、英語)の変更はありません。

ダウンロード

    • 2020/1/7 対応のおかしかった下記の行(1808, 3804, 9473, 13981, 14377, 17721, 20961, 30422, 41142, 42133, 46615, 48631, 49930)について修正しました。ご指摘ありがとうございました。
    • 2018/2/28 ファイルを差し替えました。
    • 2018/2/27 公開

利用制限・免責事項

発表文献

  • [1] Takumi Maruyama and Kazuhide Yamamoto. Simplified Corpus with Core Vocabulary. The 11th International Conference on Language Resources and Evaluation (LREC 2018), pp.1153-1160 (2018.5) [原稿] [ポスター] [概要]
  • [2] ⼭本 和英, 丸⼭ 拓海, ⾓張 ⻯晴, 稲岡 夢⼈, ⼩川 耀⼀朗, 勝⽥ 哲弘, 髙橋 寛治. やさしい⽇本語対訳コーパスの構築. 言語処理学会第23回年次大会, pp.763-766 (2017.3) [原稿] [ポスター]

フィードバック

  • 本公開に対する責任はすべて山本にあります。
  • 本公開に関するあらゆるご意見・苦情・ご感想は山本にお送りください。
 (感想・要望・情報提供)