ルールベース翻訳と統計翻訳について簡単に調べたことを・・・ ルールベース翻訳 翻訳する際の簡単な流れ 1.原文を解析(構文、形態素) 2.訳文の言語の順に変換 3.辞書を参照しながら足りない語を補う ルールベースのルールとは文法規則と変換規則のことを指す。 定めたルールに則っていなければ翻訳ができないが、則ってさえいればしっかりと翻訳可能。 既存のものを使う場合、ユーザーはルール変更不可。 ただし、ユーザー辞書は追加可能。 すでに突き詰められているようであり、劇的な進化は難しい。 運用に適しているもの:説明書や公的文書等 統計翻訳 大量の対訳コーパスから句(単語)レベルで、次に続くものを統計的に求めて翻訳を行う。 対訳データから翻訳モデルと言語モデルを学習。 翻訳モデル:翻訳としての確からしさを評価。翻訳ルールや対訳辞書に相当。 言語モデル:生成される単語列が出力言語としてどれだけ確からしいかを評価。文法に相当。 この二つの統計モデルを用いて訳語を出力。 学習データさえ揃っていれば精度は高く、開発コストが低い。 学習データと分野が違うテキストは精度が落ちる。 入力言語と出力言語の文法構造が違うと精度が落ちる。(日本語と英語) 計算コストが高い。 |