言語商会

差分

このページの2つのバージョン間の差分を表示します。

この比較画面へのリンク

両方とも前のリビジョン前のリビジョン
次のリビジョン
前のリビジョン
次のリビジョン両方とも次のリビジョン
snow:t23 [2021/08/19 14:38] adminsnow:t23 [2021/08/19 22:04] admin
行 1: 行 1:
 +~~NOTOC~~
 ===== SNOW T23:やさしい日本語拡張コーパス ===== ===== SNOW T23:やさしい日本語拡張コーパス =====
 ==== Name in English ==== ==== Name in English ====
行 7: 行 8:
  
 ==== 内容 ==== ==== 内容 ====
-  * SNOW T15:やさしい日本語コーパスを参考にして、新たに3万5千文をやさしい日本語(平易な日本語語彙)に書き換えた対訳コーパスです。+  * [[T15|SNOW T15:やさしい日本語コーパス]]を参考にして、新たに3万5千文をやさしい日本語(平易な日本語語彙)に書き換えた対訳コーパスです。
     * クラウドソーシングで集めた7名がすべて人手で書き換えました。     * クラウドソーシングで集めた7名がすべて人手で書き換えました。
       * 各作業者が5,000文を書き換え、その内の100文は作業者間で共通の文を書き換えてもらいました。       * 各作業者が5,000文を書き換え、その内の100文は作業者間で共通の文を書き換えてもらいました。
行 13: 行 14:
   * ここで言う「やさしい日本語」とは、我々が独自に定義したUniDic単語体系の2,000語です。   * ここで言う「やさしい日本語」とは、我々が独自に定義したUniDic単語体系の2,000語です。
     * 詳しくはやさしい日本語の解説ページをご覧ください。     * 詳しくはやさしい日本語の解説ページをご覧ください。
-  * テキストは以下の条件を満たす田中コーパスの文から無作為抽出しています。 +  * テキストは以下の条件を満たす[[http://www.edrdg.org/wiki/index.php/Tanaka_Corpus|田中コーパス]]の文から無作為抽出しています。 
-    * SNOW T15:やさしい日本語コーパスに含まれない文+    * [[T15|SNOW T15:やさしい日本語コーパス]]に含まれない文
     * 1文の文字数が7文字~65文字の文     * 1文の文字数が7文字~65文字の文
     * もとからやさしい日本語だけで構成されていない文     * もとからやさしい日本語だけで構成されていない文
行 20: 行 21:
 ==== ダウンロード ====  ==== ダウンロード ==== 
   * [[https://filedn.com/lit4DCIlHwxfS1gj9zcYuDJ/SNOW/T23-2020.1.7.xlsx|XLSXファイル]] (3.5MB)    * [[https://filedn.com/lit4DCIlHwxfS1gj9zcYuDJ/SNOW/T23-2020.1.7.xlsx|XLSXファイル]] (3.5MB) 
-  * 2020/1/ 対応のおかしかった下記の行(Ab_101,  Ab_519,  Ab_721,  Ab_2238,  Ab_3280,  Ab_4095,  Ab_4832,  Ac_87,  Ah_1238,  Ah_1426,  Ah_2410,  Ah_2450,  Ah_2650,  Ah_2651,  Ah_2975,  Ah_2976,  Ah_4243,  Ah_4632,  Ak_1454,  Ak_2089,  Ak_2154,  Ak_2321,  Ak_4686,  Al_1311,  Al_1723,  Al_2780,  Al_3737,  Al_3796,  Al_3860,  Al_4024) について修正を行いました。ご指摘ありがとうございました。 +    * 2020/1/ 対応のおかしかった下記の行(Ab_101,  Ab_519,  Ab_721,  Ab_2238,  Ab_3280,  Ab_4095,  Ab_4832,  Ac_87,  Ah_1238,  Ah_1426,  Ah_2410,  Ah_2450,  Ah_2650,  Ah_2651,  Ah_2975,  Ah_2976,  Ah_4243,  Ah_4632,  Ak_1454,  Ak_2089,  Ak_2154,  Ak_2321,  Ak_4686,  Al_1311,  Al_1723,  Al_2780,  Al_3737,  Al_3796,  Al_3860,  Al_4024) について修正を行いました。ご指摘ありがとうございました。 
-2019/7/2 公開+    2019/7/2 公開
   * ID:日本語(原文):やさしい日本語:英語(原文):固有名詞 のデータが入っています。   * ID:日本語(原文):やさしい日本語:英語(原文):固有名詞 のデータが入っています。
     * IDは作業者_番号 共通の文は、eval_番号 で管理しています。     * IDは作業者_番号 共通の文は、eval_番号 で管理しています。
行 29: 行 30:
  
 ==== 利用制限・免責事項 ====  ==== 利用制限・免責事項 ==== 
-  * このデータはCreative Commons Attribution 4.0 International (CC BY 4.0)に基づいて再配布可能です。+  * このデータは[[https://creativecommons.org/licenses/by/4.0/|Creative Commons Attribution 4.0 International (CC BY 4.0)]]に基づいて再配布可能です。
   * 研究利用の際は下記の関連文献[1]または[2]を引用いただけると助かります。   * 研究利用の際は下記の関連文献[1]または[2]を引用いただけると助かります。
  
 (感想・要望・情報提供)