このページの2つのバージョン間の差分を表示します。
次のリビジョン | 前のリビジョン | ||
snow:t15 [2021/08/19 14:42] – 作成 admin | snow:t15 [2021/09/10 19:21] (現在) – admin | ||
---|---|---|---|
行 1: | 行 1: | ||
- | SNOW T15:やさしい日本語コーパス | + | [[:|言語商会]]>[[:lab:|旧研究室]]>[[:SNOW:|SNOW]] |
- | Name in English | + | ~~NOTOC~~ |
- | SNOW T15: Japanese Simplified Corpus with Core Vocabulary | + | |
- | Reference in English | + | |
- | Takumi Maruyama and Kazuhide Yamamoto. Simplified Corpus with Core Vocabulary. The 11th International Conference on Language Resources and Evaluation (LREC 2018), (2018.5) | + | |
- | 内容 | + | |
- | 5万文をやさしい日本語(平易な日本語語彙)に書き換えた対訳コーパスです。 | + | |
- | 本研究室の学生5名がすべて人手で書き換えました。詳しくは下記文献[2]をご参照ください。 | + | |
- | ここで言う「やさしい日本語」とは、我々が独自に定義したUniDic単語体系の2, | + | |
- | 詳しくはやさしい日本語の解説ページをご覧ください。 | + | |
- | テキストは機械翻訳用の日英対訳コーパスである small_parallel_enja: 50k En/Ja Parallel Corpus forTesting SMT Methods を使用し、このコーパスの各日本語文にやさしい日本語を付与する形でコーパスを作成しました。 | + | |
- | この結果、本コーパスには英訳も付与されていますので、英語、日本語、やさしい日本語の3者が文単位で対応した対訳コーパスになっています。よって英語からやさしい日本語(あるいは逆方向)への日英対訳コーパスとしても利用可能です。 | + | |
- | small_parallel_enja において ID:30011の原文は「飛行機の席はは予約しましたか。」となっていましたので、本コーパスでは「飛行機の席は予約しましたか。」に修正しました。これ以外の元コーパスからの原文(日本語、英語)の変更はありません。 | + | |
- | ダウンロード | + | |
- | XLSXファイル (3.5MB) | + | |
- | 2020/ | + | |
- | 2018/2/28 ファイルを差し替えました。 | + | |
- | 2018/2/27 公開 | + | |
- | 利用制限・免責事項 | + | ===== SNOW T15: |
- | このデータはCreative Commons Attribution 4.0 International (CC BY 4.0)に基づいて再配布可能です。 | + | ==== Name in English ==== |
- | 研究利用の際は下記の関連文献[1]または[2]を引用いただけると助かります。 | + | * SNOW T15: Japanese Simplified Corpus with Core Vocabulary |
- | 発表文献 | + | |
- | [1] Takumi Maruyama and Kazuhide Yamamoto. Simplified Corpus with Core Vocabulary. The 11th International Conference on Language Resources and Evaluation (LREC 2018), (2018.5) | + | ==== Reference in English ==== |
- | [2] ⼭本 和英, 丸⼭ 拓海, ⾓張 ⻯晴, 稲岡 夢⼈, ⼩川 耀⼀朗, 勝⽥ 哲弘, 髙橋 寛治. やさしい⽇本語対訳コーパスの構築. 言語処理学会第23回年次大会, | + | * Takumi Maruyama and Kazuhide Yamamoto. Simplified Corpus with Core Vocabulary. The 11th International Conference on Language Resources and Evaluation (LREC 2018), pp.1153-1160 (2018.5) [[https:// |
- | フィードバック | + | |
- | 本公開に対する責任はすべて山本にあります。 | + | ==== 内容 ==== |
- | 本公開に関するあらゆるご意見・苦情・ご感想は山本にお送りください。 | + | * 5万文をやさしい日本語(平易な日本語語彙)に書き換えた対訳コーパスです。 |
+ | * 本研究室の学生5名がすべて人手で書き換えました。詳しくは下記文献[2]をご参照ください。 | ||
+ | * 本コーパスとは別に、約3.5万文の[[t23|SNOW T23: | ||
+ | * ここで言う「やさしい日本語」とは、我々が独自に定義したUniDic単語体系の2, | ||
+ | * 詳しくはやさしい日本語の解説ページをご覧ください。 | ||
+ | * テキストは機械翻訳用の日英対訳コーパスである[[https:// | ||
+ | * この結果、本コーパスには英訳も付与されていますので、英語、日本語、やさしい日本語の3者が文単位で対応した対訳コーパスになっています。よって英語からやさしい日本語(あるいは逆方向)への日英対訳コーパスとしても利用可能です。 | ||
+ | * small_parallel_enja において ID: | ||
+ | |||
+ | ==== ダウンロード ==== | ||
+ | * [[https:// | ||
+ | * 2020/ | ||
+ | * 2018/2/28 ファイルを差し替えました。 | ||
+ | * 2018/2/27 公開 | ||
+ | |||
+ | ==== 利用制限・免責事項 | ||
+ | | ||
+ | | ||
+ | |||
+ | ==== 発表文献 | ||
+ | | ||
+ | | ||
+ | |||
+ | ==== フィードバック | ||
+ | | ||
+ | | ||