言語商会

言語商会旧研究室SNOW

SNOW E12:機械翻訳システム安定性評価セット

Name in English

  • SNOW E12: Evaluation data set for machine translation stability

Reference in English

  • Kanji Takahashi, Shunsuke Takeno and Kazuhide Yamamoto. Evaluation of Machine Translation Stability, Proc. of 23rd Annual Meeting of Association for Natural Language Processing, pp.541-544, 2017 (written in Japanese)

内容

  • Graham NEUBIG氏が公開している京都フリー翻訳タスク(KFTT)の日本語テストデータを機械翻訳システム安定性評価のために加工したテキストです。
  • 具体的には、http://www.phontron.com/kftt/index-ja.html で公開されている Kyoto Free Translation Task (Data Only v. 1.0) にあるdata/orig/kyoto-test.jaから無作為に100文を抽出し、安定性評価のために5種類の加工をしたものです。
  • データの内訳
加工方法 文数
読点の削除 100
句点の削除 85
並び替え 62
表記ゆれ 30
同義語による換言 64

使い方

  • 評価したい機械翻訳システムをkyoto-train.ja, kyoto-train.enで学習します。
  • このシステムへの入力に上記評価データを用います。
  • 文献[1]に従って入力に対する出力の変化を測ることで、その機械翻訳システムが安定しているかどうか数値化します。

ダウンロード

  • ファイル形式は左から、文ID、原文、文末の「。」を削除、「、」を削除、意味が等価な並び替え、表記ゆれ、単語の換言となります。
    • タブ区切りです。
    • 文IDは原文がkyoto-test.ja内で何行目のものかを示しています。
    • MeCab-UniDicで単語分割済みです。(他の分割を利用したい場合は、空白を削除してご利用ください)
    • 処理できなかった文は、空白となります。

利用制限・免責事項

文献

  • 髙橋 寛治, 竹野 峻輔, 山本 和英. 機械翻訳システムの安定性評価. 言語処理学会第23回年次大会, pp.541-544 (2017.3) [原稿] [スライド]

関連URL

フィードバック

  • 本公開に対する責任はすべて山本にあります。
  • 本公開に関するあらゆるご意見・苦情・ご感想は山本にお送りください。
  • 内容の改善にご協力いただける方を歓迎します。記述内容に追加や誤りなどがありましたらお送りいただければ改訂します。
 (感想・要望・情報提供)