[[:|言語商会]]>[[:lab:|旧研究室]]>[[:SNOW:|SNOW]] ~~NOTOC~~ ===== SNOW T23:やさしい日本語拡張コーパス ===== === Name in English === * SNOW T23: Crowdsourced Corpus of Sentence Simplification with Core Vocabulary === Reference in English === * Akihiro Katsuta and Kazuhide Yamamoto. Crowdsourced Corpus of Sentence Simplification with Core Vocabulary. The 11th International Conference on Language Resources and Evaluation (LREC 2018), pp.461-466 (2018.5) === 内容 === * [[T15|SNOW T15:やさしい日本語コーパス]]を参考にして、新たに3万5千文をやさしい日本語(平易な日本語語彙)に書き換えた対訳コーパスです。 * クラウドソーシングで集めた7名がすべて人手で書き換えました。 * 各作業者が5,000文を書き換え、その内の100文は作業者間で共通の文を書き換えてもらいました。 * 各作業者で作業量にばらつきが出にくいように平均文長を極力揃えました。 * ここで言う「やさしい日本語」とは、我々が独自に定義したUniDic単語体系の2,000語です。 * 詳しくはやさしい日本語の解説ページをご覧ください。 * テキストは以下の条件を満たす[[http://www.edrdg.org/wiki/index.php/Tanaka_Corpus|田中コーパス]]の文から無作為抽出しています。 * [[T15|SNOW T15:やさしい日本語コーパス]]に含まれない文 * 1文の文字数が7文字~65文字の文 * もとからやさしい日本語だけで構成されていない文 === ダウンロード === * [[https://www.jnlp.org/cgi-priv/download.cgi?id=SNOW/T23|XLSXファイル]] (3.5MB) * 2020/1/7 対応のおかしかった下記の行(Ab_101, Ab_519, Ab_721, Ab_2238, Ab_3280, Ab_4095, Ab_4832, Ac_87, Ah_1238, Ah_1426, Ah_2410, Ah_2450, Ah_2650, Ah_2651, Ah_2975, Ah_2976, Ah_4243, Ah_4632, Ak_1454, Ak_2089, Ak_2154, Ak_2321, Ak_4686, Al_1311, Al_1723, Al_2780, Al_3737, Al_3796, Al_3860, Al_4024) について修正を行いました。ご指摘ありがとうございました。 * 2019/7/2 公開 * ID:日本語(原文):やさしい日本語:英語(原文):固有名詞 のデータが入っています。 * IDは作業者_番号 共通の文は、eval_番号 で管理しています。 * 固有名詞は作業者が固有名詞として抽出した単語です。 * 固有名詞は書き換えないように指示をしており、固有名詞の判断は作業者に任せています。 * 4,900文と共通の100文でそれぞれシートを分けています。 === 利用制限・免責事項 === * このデータは[[https://creativecommons.org/licenses/by/4.0/|Creative Commons Attribution 4.0 International (CC BY 4.0)]]に基づいて再配布可能です。 * 研究利用の際は下記の関連文献[1]または[2]を引用いただけると助かります。 === 発表文献 === * [1] Akihiro Katsuta and Kazuhide Yamamoto. Crowdsourced Corpus of Sentence Simplification with Core Vocabulary. The 11th International Conference on Language Resources and Evaluation (LREC 2018), pp.461-466 (2018.5) === フィードバック === * 本公開に対する責任はすべて山本にあります。 * 本公開に関するあらゆるご意見・苦情・ご感想は山本にお送りください。