言語商会

差分

このページの2つのバージョン間の差分を表示します。

この比較画面へのリンク

次のリビジョン
前のリビジョン
snow:t15 [2021/08/19 14:42] – 作成 adminsnow:t15 [2021/09/10 19:21] (現在) admin
行 1: 行 1:
-SNOW T15:やさしい日本コーパス +[[:|言商会]]>[[:lab:|旧研究室]]>[[:SNOW:|SNOW]] 
-Name in English +~~NOTOC~~
-SNOW T15Japanese Simplified Corpus with Core Vocabulary +
-Reference in English +
-Takumi Maruyama and Kazuhide Yamamoto. Simplified Corpus with Core Vocabulary. The 11th International Conference on Language Resources and Evaluation (LREC 2018), (2018.5) +
-内容 +
-5万文をやさしい日本語(平易な日本語語彙)に書き換えた対訳コーパスです。 +
-研究室の学生5名がすべて人手で書き換えました。詳しくは下記文献[2]をご参照ください。 +
-ここで言う「やさしい日本語」とは、我々が独自に定義したUniDic単語体系の2,000語です。 +
-詳しくはやさしい日本語の解説ページをご覧ください。 +
-テキストは機械翻訳用の日英対訳コーパスである small_parallel_enja50k En/Ja Parallel Corpus forTesting SMT Methods を使用し、このコーパスの各日本語文にやさしい日本語を付与する形でコーパスを作成しました。 +
-この結果、本コーパスには英訳も付与されていますので、英語、日本語、やさしい日本語の3者が文単位で対応した対訳コーパスになっています。よって英語からやさしい日本語(あるいは逆方向)への日英対訳コーパスとしても利用可能です。 +
-small_parallel_enja において ID:30011の原文は「飛行機の席はは予約しましたか。」となっていましたので、本コーパスでは「飛行機の席は予約しましたか。」に修正しました。これ以外の元コーパスからの原文(日本語、英語)の変更はありません。 +
-ダウンロード +
-XLSXファイル (3.5MB)  +
-2020/1/ 対応のおかしかった下記の行(1808, 3804, 9473, 13981, 14377, 17721, 20961, 30422, 41142, 42133, 46615, 48631, 49930)について修正しました。ご指摘ありがとうございました。 +
-2018/2/28 ファイルを差し替えました。 +
-2018/2/27 公開+
  
-利用制限・免責事項 +===== SNOW T15:やさしい日本語コーパス ===== 
-このデータはCreative Commons Attribution 4.0 International (CC BY 4.0)に基づいて再配布可能です。 +==== Name in English ==== 
-研究利用の際は下記の関連文献[1]または[2]を引用いただけると助かります。 +  * SNOW T15: Japanese Simplified Corpus with Core Vocabulary 
-発表文献 + 
-[1] Takumi Maruyama and Kazuhide Yamamoto. Simplified Corpus with Core Vocabulary. The 11th International Conference on Language Resources and Evaluation (LREC 2018), (2018.5) +==== Reference in English ==== 
-[2] ⼭本 和英, 丸⼭ 拓海, ⾓張 ⻯晴, 稲岡 夢⼈, ⼩川 耀⼀朗, 勝⽥ 哲弘, 髙橋 寛治. やさしい⽇本語対訳コーパスの構築. 言語処理学会第23回年次大会, pp.763-766 (2017.3) [PDF+  * Takumi Maruyama and Kazuhide Yamamoto. Simplified Corpus with Core Vocabulary. The 11th International Conference on Language Resources and Evaluation (LREC 2018), pp.1153-1160 (2018.5) [[https://www.jnlp.org/cgi-priv/download.cgi?id=18LREC-maruyama|[原稿]]] [[https://www.jnlp.org/cgi-priv/download.cgi?id=slide/18/18LREC-maruyama.pdf|[ポスター]]] [[https://www.jnlp.org/cgi-priv/download.cgi?id=one/18/18LREC-maruyama.pdf|[概要]]] 
-フィードバック + 
-本公開に対する責任はすべて山本にあります。 +==== 内容 ==== 
-本公開に関するあらゆるご意見・苦情・ご感想は山本にお送りください。+  * 5万文をやさしい日本語(平易な日本語語彙)に書き換えた対訳コーパスです。 
 +    * 本研究室の学生5名がすべて人手で書き換えました。詳しくは下記文献[2]をご参照ください。 
 +    * 本コーパスとは別に、約3.5万文の[[t23|SNOW T23:やさしい日本語拡張コーパス]]も作成しました。 
 +  * ここで言う「やさしい日本語」とは、我々が独自に定義したUniDic単語体系の2,000語です。 
 +    * 詳しくはやさしい日本語の解説ページをご覧ください。 
 +  * テキストは機械翻訳用の日英対訳コーパスである[[https://github.com/odashi/small_parallel_enja|small_parallel_enja: 50k En/Ja Parallel Corpus forTesting SMT Methods]] を使用し、このコーパスの各日本語文にやさしい日本語を付与する形でコーパスを作成しました。 
 +    * この結果、本コーパスには英訳も付与されていますので、英語、日本語、やさしい日本語の3者が文単位で対応した対訳コーパスになっています。よって英語からやさしい日本語(あるいは逆方向)への日英対訳コーパスとしても利用可能です。 
 +    * small_parallel_enja において ID:30011の原文は「飛行機の席**はは**予約しましたか。」となっていましたので、本コーパスでは「飛行機の席は予約しましたか。」に修正しました。これ以外の元コーパスからの原文(日本語、英語)の変更はありません。 
 + 
 +==== ダウンロード ==== 
 +  * [[https://www.jnlp.org/cgi-priv/download.cgi?id=SNOW/T15|XLSXファイル (3.5MB) ]] 
 +    * 2020/1/ 対応のおかしかった下記の行(1808, 3804, 9473, 13981, 14377, 17721, 20961, 30422, 41142, 42133, 46615, 48631, 49930)について修正しました。ご指摘ありがとうございました。 
 +    * 2018/2/28 ファイルを差し替えました。 
 +    * 2018/2/27 公開 
 + 
 +==== 利用制限・免責事項 ====  
 +  このデータは[[https://creativecommons.org/licenses/by/4.0/|Creative Commons Attribution 4.0 International (CC BY 4.0)]]に基づいて再配布可能です。 
 +  研究利用の際は下記の関連文献[1]または[2]を引用いただけると助かります。 
 + 
 +==== 発表文献 ==== 
 +  [1] Takumi Maruyama and Kazuhide Yamamoto. Simplified Corpus with Core Vocabulary. The 11th International Conference on Language Resources and Evaluation (LREC 2018), pp.1153-1160 (2018.5) [[https://www.jnlp.org/cgi-priv/download.cgi?id=18LREC-maruyama|[原稿]]] [[https://www.jnlp.org/cgi-priv/download.cgi?id=slide/18/18LREC-maruyama.pdf|[ポスター]]] [[https://www.jnlp.org/cgi-priv/download.cgi?id=one/18/18LREC-maruyama.pdf|[概要]]]  
 +  [2] ⼭本 和英, 丸⼭ 拓海, ⾓張 ⻯晴, 稲岡 夢⼈, ⼩川 耀⼀朗, 勝⽥ 哲弘, 髙橋 寛治. やさしい⽇本語対訳コーパスの構築. 言語処理学会第23回年次大会, pp.763-766 (2017.3) [[https://www.jnlp.org/cgi-priv/download.cgi?id=arc/17/17NLP-yamamoto.pdf|[原稿]]] [[https://www.jnlp.org/cgi-priv/download.cgi?id=slide/17/17NLP-yamamoto.pdf|[ポスター]]]  
 + 
 +==== フィードバック ==== 
 +  本公開に対する責任はすべて山本にあります。 
 +  本公開に関するあらゆるご意見・苦情・ご感想は山本にお送りください。
  
 (感想・要望・情報提供)