[[:|言語商会]]>[[:lab:|旧研究室]]>[[:SNOW:|SNOW]] ~~NOTOC~~ ===== SNOW T15:やさしい日本語コーパス ===== ==== Name in English ==== * SNOW T15: Japanese Simplified Corpus with Core Vocabulary ==== Reference in English ==== * Takumi Maruyama and Kazuhide Yamamoto. Simplified Corpus with Core Vocabulary. The 11th International Conference on Language Resources and Evaluation (LREC 2018), pp.1153-1160 (2018.5) [[https://www.jnlp.org/cgi-priv/download.cgi?id=18LREC-maruyama|[原稿]]] [[https://www.jnlp.org/cgi-priv/download.cgi?id=slide/18/18LREC-maruyama.pdf|[ポスター]]] [[https://www.jnlp.org/cgi-priv/download.cgi?id=one/18/18LREC-maruyama.pdf|[概要]]] ==== 内容 ==== * 5万文をやさしい日本語(平易な日本語語彙)に書き換えた対訳コーパスです。 * 本研究室の学生5名がすべて人手で書き換えました。詳しくは下記文献[2]をご参照ください。 * 本コーパスとは別に、約3.5万文の[[t23|SNOW T23:やさしい日本語拡張コーパス]]も作成しました。 * ここで言う「やさしい日本語」とは、我々が独自に定義したUniDic単語体系の2,000語です。 * 詳しくはやさしい日本語の解説ページをご覧ください。 * テキストは機械翻訳用の日英対訳コーパスである[[https://github.com/odashi/small_parallel_enja|small_parallel_enja: 50k En/Ja Parallel Corpus forTesting SMT Methods]] を使用し、このコーパスの各日本語文にやさしい日本語を付与する形でコーパスを作成しました。 * この結果、本コーパスには英訳も付与されていますので、英語、日本語、やさしい日本語の3者が文単位で対応した対訳コーパスになっています。よって英語からやさしい日本語(あるいは逆方向)への日英対訳コーパスとしても利用可能です。 * small_parallel_enja において ID:30011の原文は「飛行機の席**はは**予約しましたか。」となっていましたので、本コーパスでは「飛行機の席は予約しましたか。」に修正しました。これ以外の元コーパスからの原文(日本語、英語)の変更はありません。 ==== ダウンロード ==== * [[https://www.jnlp.org/cgi-priv/download.cgi?id=SNOW/T15|XLSXファイル (3.5MB) ]] * 2020/1/7 対応のおかしかった下記の行(1808, 3804, 9473, 13981, 14377, 17721, 20961, 30422, 41142, 42133, 46615, 48631, 49930)について修正しました。ご指摘ありがとうございました。 * 2018/2/28 ファイルを差し替えました。 * 2018/2/27 公開 ==== 利用制限・免責事項 ==== * このデータは[[https://creativecommons.org/licenses/by/4.0/|Creative Commons Attribution 4.0 International (CC BY 4.0)]]に基づいて再配布可能です。 * 研究利用の際は下記の関連文献[1]または[2]を引用いただけると助かります。 ==== 発表文献 ==== * [1] Takumi Maruyama and Kazuhide Yamamoto. Simplified Corpus with Core Vocabulary. The 11th International Conference on Language Resources and Evaluation (LREC 2018), pp.1153-1160 (2018.5) [[https://www.jnlp.org/cgi-priv/download.cgi?id=18LREC-maruyama|[原稿]]] [[https://www.jnlp.org/cgi-priv/download.cgi?id=slide/18/18LREC-maruyama.pdf|[ポスター]]] [[https://www.jnlp.org/cgi-priv/download.cgi?id=one/18/18LREC-maruyama.pdf|[概要]]] * [2] ⼭本 和英, 丸⼭ 拓海, ⾓張 ⻯晴, 稲岡 夢⼈, ⼩川 耀⼀朗, 勝⽥ 哲弘, 髙橋 寛治. やさしい⽇本語対訳コーパスの構築. 言語処理学会第23回年次大会, pp.763-766 (2017.3) [[https://www.jnlp.org/cgi-priv/download.cgi?id=arc/17/17NLP-yamamoto.pdf|[原稿]]] [[https://www.jnlp.org/cgi-priv/download.cgi?id=slide/17/17NLP-yamamoto.pdf|[ポスター]]] ==== フィードバック ==== * 本公開に対する責任はすべて山本にあります。 * 本公開に関するあらゆるご意見・苦情・ご感想は山本にお送りください。