文献紹介 3

 タイトル Googleを活用した英作文支援システムの構築
 著者大鹿 広憲、佐藤 学、安藤 進、山名 早人 

目的
Web上での翻訳サービスの実現

関連研究
1.機械翻訳
意味解析に基づいた対訳コーパスの作成が研究されている。
網羅性がないことが欠点
2.英文書作成支援
電気通信大学の高倉らの文書作成支援システムTransAid
インターネットコーパスに検索エンジンを用いるが、学会関連のページのみを集め、名詞と動詞のみ訂正を行うため、熟語やその他の品詞に対し汎用性がない。

検索エンジンを使った英作文の検討
1.フレーズ検索による検討
フレーズ検索を用いることで、その文型がよく使われるものかを検討できる。
例)
「その選手は汗でびしょ濡れだった。」
exciteをもちいて翻訳
”The player was dripping wet in the sweat.”
「"wet in the sweat"」と「"wet in sweat"」で検索
結果 前者のヒット数7、後者のヒット数655となり、後者の方が適当であることがわかる。
2.ワイルドカードを用いた検討
ワイルドカードに置き換えた部分の検討
例)
「"wet * sweat"」で検索
結果、in、with、fromを用いたものがあった。
この前置詞を入れてフレーズ検索を行うことでより適当なものを検討する。
3.多義語の検討
一つの日本語に対し複数の英訳がある場合の使い分けの検討
例)
「選挙の結果」をexciteを用いて翻訳
"result of the election"
和英辞書で「結果」を調べると他に”outcome”、”conclusion”がある。
「"result of the election"」、「"outcome of the election"」、「"conclusion of the election"」でフレーズ検索を行い適当なものを検討。

システムの構成
GoogleAPIでGoogleにアクセス
EDRを辞書データベースに使用
MontyLinguaを品詞特定に使用

システムの機能と処理
1.各種検討の自動化
1.1 ワイルドカードを利用した検討
ユーザが気になる英文の一部(wet in the sweat)を入力し、検討したい部分を選択(ドラッグ)する。
処理を開始すると選択した部分をワイルドカードにして検索と同時に選択した部分の品詞を特定する。
検索結果と品詞から、選択した部分の他の候補を特定。
それぞれをフレーズ検索し、各ヒット数を表にして出力。
1.2 多義語の検討
検討したい英語の語句(result of the election)と調べたい英語の日本語訳(「結果」)を入力。
「結果」についてEDRで検索し、ユーザが状況にあった訳語候補を選択。
候補それぞれをフレーズ検索し、各ヒット数を表にして出力。
1.3 冠詞の検討
品詞解析の際に名詞と判断されたものに対し冠詞(the)の有無の自動検討を行う。(オプション機能)
1.4 関係代名詞を使った構文の検討
従来のシステムは「~な人」「~なもの」というような翻訳で”that”、”which”等を用いて関係代名詞を使った文になることが多い。
しかし、関係代名詞を使った文は汎用性が低い。
そのため、”~ing”、”~ed”等の分詞、または前置詞を用いた表現と比較検討を行う。
ユーザが検討したい英文(data that exists on the Web)を入力。
品詞解析を行い「SVO」の関係を抽出((Verb-Subj-Obj-Obj)=("exist" "that" "on the Web"))。
Sの部分が関係代名詞の場合、その前の単語に注目する。(thatの場合、指示語か関係代名詞の判断を直前に名詞があるかどうかで行う。)
次にVが省略可能かどうかを判断(このシステムでは、”exist”と”get”を省略可能動詞としている。)。
検討するフレーズが決まったら、フレーズ検索し、各ヒット数を表にして出力。
1.5 副詞の修飾位置の検討
副詞の位置を置き換えフレーズ検討を行う。
2.用例の参照
訳語周辺の一文を正規表現を用いて抜き出し、訳語候補の検討を行える。
3.ドメインの参照
フレーズ検索を行う際にドメインを参照することで、その表現がどの分野、地域で使われているかがわかる。

システムの評価
英訳が頻繁に行われる分野として、一般の英作文、新聞記事の英文化、学術論文の英文化において英作文の評価を行った。
あらかじめ日本語文と英語文の対訳情報のある正解データを用意し、日本語文を翻訳ソフトで英訳し、システムを用いて修正をする。
修正した英文が正解データと同じ単語を用いていれば「正解」として評価を行う。
翻訳ソフトは「The 翻訳プロフェッショナル V10」(製品版)。

考察
・上手く修正できた場合
単純なSVOやSVCという文型は汎用性が調べやすかったため、一般の英作文では精度が高かった。
・上手く修正できない場合
1.意訳による日本語の変化
新聞や論文では意訳が多く、翻訳する際に意訳された日本語を用いるために、精度が低い結果になった。
2.構文解析による検討の限界
新聞や論文では日本語文が長いために複雑な構文になっていることが多く、構文解析による検討が十分に行えなかった。
3.ユーザの英語に対する知識
このシステムは、一文そのものではなく”気になった”部分の検討であるため、ユーザによって「気になる文型」が変わってくる。
今回はユーザ一人に対してしか行っていないため、複数人で行う必要があった。


感じたこと・思ったこと
自分は英→日の意訳をしてみたいと考えているが、検索エンジンを利用する手法は英→日の場合、運用は難しいかもしれない。
前回の潜在関係検索に出てきた、ワイルドカードを用いた検索は結構応用が利くようなので、もし検索エンジンを使うときは利用できるかもしれない。


Comments