言語商会

差分

このページの2つのバージョン間の差分を表示します。

この比較画面にリンクする

次のリビジョン
前のリビジョン
snow:e12 [2021/09/07 16:51]
admin 作成
snow:e12 [2021/09/07 20:12] (現在)
admin
行 2: 行 2:
 ~~NOTOC~~ ~~NOTOC~~
  
 +===== SNOW E12:機械翻訳システム安定性評価セット =====
 +=== Name in English ===
 +  * SNOW E12: Evaluation data set for machine translation stability
 +
 +=== Reference in English ===
 +  * Kanji Takahashi, Shunsuke Takeno and Kazuhide Yamamoto. Evaluation of Machine Translation Stability, Proc. of 23rd Annual Meeting of Association for Natural Language Processing, pp.541-544, 2017  (written in Japanese)
 +
 +=== 内容 ===
 +  * Graham NEUBIG氏が公開している京都フリー翻訳タスク(KFTT)の日本語テストデータを機械翻訳システム安定性評価のために加工したテキストです。
 +  * 具体的には、http://www.phontron.com/kftt/index-ja.html で公開されている Kyoto Free Translation Task (Data Only v. 1.0) にあるdata/orig/kyoto-test.jaから無作為に100文を抽出し、安定性評価のために5種類の加工をしたものです。
 +  * データの内訳
 +
 +^ 加工方法 ^ 文数 |
 +| 読点の削除 | 100 |
 +| 句点の削除 | 85 |
 +| 並び替え | 62 |
 +| 表記ゆれ | 30 |
 +| 同義語による換言 | 64 |
 +
 +=== 使い方 ===
 +  * 評価したい機械翻訳システムをkyoto-train.ja, kyoto-train.enで学習します。
 +  * このシステムへの入力に上記評価データを用います。
 +  * 文献[1]に従って入力に対する出力の変化を測ることで、その機械翻訳システムが安定しているかどうか数値化します。
 +
 +=== ダウンロード ===
 +  * [[https://www.jnlp.org/cgi-priv/download.cgi?id=SNOW/E12|Excelワークシート(.xlsx)]] (23.6KB)
 +  * ファイル形式は左から、文ID、原文、文末の「。」を削除、「、」を削除、意味が等価な並び替え、表記ゆれ、単語の換言となります。
 +    * タブ区切りです。
 +    * 文IDは原文がkyoto-test.ja内で何行目のものかを示しています。
 +    * MeCab-UniDicで単語分割済みです。(他の分割を利用したい場合は、空白を削除してご利用ください)
 +    * 処理できなかった文は、空白となります。
 +
 +=== 利用制限・免責事項 ===
 +  * このデータは[[http://creativecommons.org/licenses/by-sa/3.0/|Creative Commons Attribution-Share-Alike License 3.0]]に基づいて再配布可能です。
 +
 +=== 文献 ===
 +  * 髙橋 寛治, 竹野 峻輔, 山本 和英. 機械翻訳システムの安定性評価. 言語処理学会第23回年次大会, pp.541-544 (2017.3) [[https://dl.dropboxusercontent.com/u/2152477/arc/17/17NLP-takahashi-stability.pdf|[原稿]]] [[https://dl.dropboxusercontent.com/u/2152477/one/17/17NLP-takahashi-stability.pdf|[スライド]]]
 +
 +=== 関連URL ===
 +  * [[http://www.phontron.com/kftt/index-ja.html|京都フリー翻訳タスク(KFTT)]]  / [[http://www.phontron.com/|Graham NEUBIG(奈良先端大)]]
 +  * [[http://alaginrc.nict.go.jp/WikiCorpus/|Wikipedia日英京都関連文書対訳コーパス]] / 情報通信研究機構(NICT)
 +
 +=== フィードバック ===
 +  * 本公開に対する責任はすべて山本にあります。
 +  * 本公開に関するあらゆるご意見・苦情・ご感想は山本にお送りください。
 +  * 内容の改善にご協力いただける方を歓迎します。記述内容に追加や誤りなどがありましたらお送りいただければ改訂します。
  
 (感想・要望・情報提供)