言語商会

文書の過去の版を表示しています。


SNOW T15:やさしい日本語コーパス Name in English SNOW T15: Japanese Simplified Corpus with Core Vocabulary Reference in English Takumi Maruyama and Kazuhide Yamamoto. Simplified Corpus with Core Vocabulary. The 11th International Conference on Language Resources and Evaluation (LREC 2018), (2018.5) 内容 5万文をやさしい日本語(平易な日本語語彙)に書き換えた対訳コーパスです。 本研究室の学生5名がすべて人手で書き換えました。詳しくは下記文献[2]をご参照ください。 ここで言う「やさしい日本語」とは、我々が独自に定義したUniDic単語体系の2,000語です。 詳しくはやさしい日本語の解説ページをご覧ください。 テキストは機械翻訳用の日英対訳コーパスである small_parallel_enja: 50k En/Ja Parallel Corpus forTesting SMT Methods を使用し、このコーパスの各日本語文にやさしい日本語を付与する形でコーパスを作成しました。 この結果、本コーパスには英訳も付与されていますので、英語、日本語、やさしい日本語の3者が文単位で対応した対訳コーパスになっています。よって英語からやさしい日本語(あるいは逆方向)への日英対訳コーパスとしても利用可能です。 small_parallel_enja において ID:30011の原文は「飛行機の席はは予約しましたか。」となっていましたので、本コーパスでは「飛行機の席は予約しましたか。」に修正しました。これ以外の元コーパスからの原文(日本語、英語)の変更はありません。 ダウンロード XLSXファイル (3.5MB) 2020/1/7 対応のおかしかった下記の行(1808, 3804, 9473, 13981, 14377, 17721, 20961, 30422, 41142, 42133, 46615, 48631, 49930)について修正しました。ご指摘ありがとうございました。 2018/2/28 ファイルを差し替えました。 2018/2/27 公開

利用制限・免責事項 このデータはCreative Commons Attribution 4.0 International (CC BY 4.0)に基づいて再配布可能です。 研究利用の際は下記の関連文献[1]または[2]を引用いただけると助かります。 発表文献 [1] Takumi Maruyama and Kazuhide Yamamoto. Simplified Corpus with Core Vocabulary. The 11th International Conference on Language Resources and Evaluation (LREC 2018), (2018.5) [2] ⼭本 和英, 丸⼭ 拓海, ⾓張 ⻯晴, 稲岡 夢⼈, ⼩川 耀⼀朗, 勝⽥ 哲弘, 髙橋 寛治. やさしい⽇本語対訳コーパスの構築. 言語処理学会第23回年次大会, pp.763-766 (2017.3) [PDF] フィードバック 本公開に対する責任はすべて山本にあります。 本公開に関するあらゆるご意見・苦情・ご感想は山本にお送りください。

 (感想・要望・情報提供)