言語商会

差分

このページの2つのバージョン間の差分を表示します。

この比較画面へのリンク

次のリビジョン
前のリビジョン
最新のリビジョン両方とも次のリビジョン
snow:t23 [2021/08/19 14:36] – 作成 adminsnow:t23 [2021/09/07 19:56] admin
行 1: 行 1:
 +[[:|言語商会]]>[[:lab:|旧研究室]]>[[:SNOW:|SNOW]]
 +~~NOTOC~~
 ===== SNOW T23:やさしい日本語拡張コーパス ===== ===== SNOW T23:やさしい日本語拡張コーパス =====
-==== Name in English ====+=== Name in English ===
   * SNOW T23: Crowdsourced Corpus of Sentence Simplification with Core Vocabulary   * SNOW T23: Crowdsourced Corpus of Sentence Simplification with Core Vocabulary
  
-==== Reference in English ====+=== Reference in English ===
   * Akihiro Katsuta and Kazuhide Yamamoto. Crowdsourced Corpus of Sentence Simplification with Core Vocabulary. The 11th International Conference on Language Resources and Evaluation (LREC 2018), pp.461-466 (2018.5)   * Akihiro Katsuta and Kazuhide Yamamoto. Crowdsourced Corpus of Sentence Simplification with Core Vocabulary. The 11th International Conference on Language Resources and Evaluation (LREC 2018), pp.461-466 (2018.5)
  
-==== 内容 ==== +=== 内容 === 
-  * SNOW T15:やさしい日本語コーパスを参考にして、新たに3万5千文をやさしい日本語(平易な日本語語彙)に書き換えた対訳コーパスです。+  * [[T15|SNOW T15:やさしい日本語コーパス]]を参考にして、新たに3万5千文をやさしい日本語(平易な日本語語彙)に書き換えた対訳コーパスです。
     * クラウドソーシングで集めた7名がすべて人手で書き換えました。     * クラウドソーシングで集めた7名がすべて人手で書き換えました。
       * 各作業者が5,000文を書き換え、その内の100文は作業者間で共通の文を書き換えてもらいました。       * 各作業者が5,000文を書き換え、その内の100文は作業者間で共通の文を書き換えてもらいました。
行 13: 行 15:
   * ここで言う「やさしい日本語」とは、我々が独自に定義したUniDic単語体系の2,000語です。   * ここで言う「やさしい日本語」とは、我々が独自に定義したUniDic単語体系の2,000語です。
     * 詳しくはやさしい日本語の解説ページをご覧ください。     * 詳しくはやさしい日本語の解説ページをご覧ください。
-  * テキストは以下の条件を満たす田中コーパスの文から無作為抽出しています。 +  * テキストは以下の条件を満たす[[http://www.edrdg.org/wiki/index.php/Tanaka_Corpus|田中コーパス]]の文から無作為抽出しています。 
-    * SNOW T15:やさしい日本語コーパスに含まれない文+    * [[T15|SNOW T15:やさしい日本語コーパス]]に含まれない文
     * 1文の文字数が7文字~65文字の文     * 1文の文字数が7文字~65文字の文
     * もとからやさしい日本語だけで構成されていない文     * もとからやさしい日本語だけで構成されていない文
  
-==== ダウンロード ====  +=== ダウンロード === 
-  * [[XLSXファイル]] (3.5MB)  +  * [[https://www.jnlp.org/cgi-priv/download.cgi?SNOW/T23|XLSXファイル]] (3.5MB)  
-  * 2020/1/ 対応のおかしかった下記の行(Ab_101,  Ab_519,  Ab_721,  Ab_2238,  Ab_3280,  Ab_4095,  Ab_4832,  Ac_87,  Ah_1238,  Ah_1426,  Ah_2410,  Ah_2450,  Ah_2650,  Ah_2651,  Ah_2975,  Ah_2976,  Ah_4243,  Ah_4632,  Ak_1454,  Ak_2089,  Ak_2154,  Ak_2321,  Ak_4686,  Al_1311,  Al_1723,  Al_2780,  Al_3737,  Al_3796,  Al_3860,  Al_4024) について修正を行いました。ご指摘ありがとうございました。 +    * 2020/1/ 対応のおかしかった下記の行(Ab_101,  Ab_519,  Ab_721,  Ab_2238,  Ab_3280,  Ab_4095,  Ab_4832,  Ac_87,  Ah_1238,  Ah_1426,  Ah_2410,  Ah_2450,  Ah_2650,  Ah_2651,  Ah_2975,  Ah_2976,  Ah_4243,  Ah_4632,  Ak_1454,  Ak_2089,  Ak_2154,  Ak_2321,  Ak_4686,  Al_1311,  Al_1723,  Al_2780,  Al_3737,  Al_3796,  Al_3860,  Al_4024) について修正を行いました。ご指摘ありがとうございました。 
-2019/7/2 公開+    2019/7/2 公開
   * ID:日本語(原文):やさしい日本語:英語(原文):固有名詞 のデータが入っています。   * ID:日本語(原文):やさしい日本語:英語(原文):固有名詞 のデータが入っています。
     * IDは作業者_番号 共通の文は、eval_番号 で管理しています。     * IDは作業者_番号 共通の文は、eval_番号 で管理しています。
行 28: 行 30:
     * 4,900文と共通の100文でそれぞれシートを分けています。     * 4,900文と共通の100文でそれぞれシートを分けています。
  
-==== 利用制限・免責事項 ====  +=== 利用制限・免責事項 === 
-  * このデータはCreative Commons Attribution 4.0 International (CC BY 4.0)に基づいて再配布可能です。+  * このデータは[[https://creativecommons.org/licenses/by/4.0/|Creative Commons Attribution 4.0 International (CC BY 4.0)]]に基づいて再配布可能です。
   * 研究利用の際は下記の関連文献[1]または[2]を引用いただけると助かります。   * 研究利用の際は下記の関連文献[1]または[2]を引用いただけると助かります。
  
-==== 発表文献 ==== +=== 発表文献 === 
   * [1] Akihiro Katsuta and Kazuhide Yamamoto. Crowdsourced Corpus of Sentence Simplification with Core Vocabulary. The 11th International Conference on Language Resources and Evaluation (LREC 2018), pp.461-466 (2018.5)   * [1] Akihiro Katsuta and Kazuhide Yamamoto. Crowdsourced Corpus of Sentence Simplification with Core Vocabulary. The 11th International Conference on Language Resources and Evaluation (LREC 2018), pp.461-466 (2018.5)
  
-==== フィードバック ====+=== フィードバック ===
   * 本公開に対する責任はすべて山本にあります。   * 本公開に対する責任はすべて山本にあります。
   * 本公開に関するあらゆるご意見・苦情・ご感想は山本にお送りください。   * 本公開に関するあらゆるご意見・苦情・ご感想は山本にお送りください。
  
 (感想・要望・情報提供)