超並列計算機の使用

1993年当時で最良の超並列計算機を用いた実験の紹介。
比較的簡単に大量の実例が収集できる専門用語を対象に行った。

専門用語でも同じ単語に違う訳語があてられる。規則性が見られない。

例.source language  原始 言語
  source coding   情報源 符号化

 情報 検索 information retrieval
 情報 公害 pollution by information
 情報 流通 distribution of information

翻訳例と完全に一致したものだけを訳すのでは非効率。
翻訳例を元に未知語の英語訳、日本語訳を導く。


○翻訳例のデータ格納形式
大量のデータを入力するため、最小限のデータのみを付加する。データは3行で表され、日本語単語列、英語単語列、対応関係のリストからなる。
以下に例を示す。

例.上昇 型 構文 解析 法
  bottom-up parsing method
  1-5=1-3 1-2=1 3-5=2-3 3-4=2 5=3

3行目の対応関係のリストは日本語単語列と英語単語列の語順の番号を使い対応が書かれている。
3-5=2-3は日本語単語列の3番目から5番目と英語単語列2番目から3番目が対応しているしていることを表す。
つまり例において、「構文 解析 法」=「parsing method」ということをさす。 
対応関係リストから中心とする部分focusと前文脈previous、後文脈nextを決定し、次のような表を作る。

対応関係ID
previous
focus
next
1-5=1-31
[s1 上昇型][s2 構文解析法]
[s1 bottom-up][s2 parsing method]
1-2=12
上昇型
bottom-up
構文解析法
parsing method
3-5=2-33上昇型
bottom-up
[s1 構文解析][s2 法]
[s1 parsing][s2 method]
 
3-4=24上昇型
bottom-up
構文解析
parsing

method
5=35上昇型構文解析
bottom-up parsing

method

表において、ID4はpreviousが「上昇型」、nextが「法」に近似した場合は「構文解析」を「parsing」と訳すことをさす。
ID3は次の4つの意味を表す。
 ・「構文解析法」は「parsing method」と訳される。
 ・「X法」のXが「構文解析」に近い場合は「X' method」と訳す。(X'はXの訳語)
 ・「構文解析Y」のYが「法」に近い場合は「parsing Y'」と訳す。(Y'はYの訳語)
 ・「X Y」のXが「構文解析」にYが「法」に近い場合は「X' Y'」と訳す。


○使用例
 次のような入力を与える。
 previous = [下降 型],
 focus = [構文 解析 プログラム],
 next = []
 これは、前文脈に「下降型」とあったとき、「構文解析プログラム」はどのように翻訳されるべきかという入力。
 参考書においてはまず、10個の近似した翻訳例を抽出する。抽出ではfocus、previous、nextの部分の近似度の得点を足し合わせ、高い順に選ぶ。
 この結果から多数決でfocus部をどう翻訳すべきかを決定する。

 例.上位3つの翻訳例
RankID/score
previous
focus
next
1
111/900

[s1 構文解析][s2 プログラム]
[s1 syntactic analysis][s2 program]

2
123/800

[s1 構文解析][s2 表]
[s1 parsing][s2 table]

3
234/750
下降 型
top-down
[s1 構文解析][s2 法]
[s1 parsing][s2 method]

 上の表において、多数決により、「構文解析プログラム」と訳すのではなく、「構文解析-X」(parsing-X)と訳すべきだと算出される。
 実際にparsingなどと訳されるのは後の処理。

 もしも、[下降 型 構文 解析 プログラム]と入力されると、例として
 →[下降 型] [構文 解析 プログラム]
 →[top-down] [構文 解析] [プログラム]
 →[top-down] [parsing] [program]
 と再帰的な処理により、文の細分化と翻訳が行われる。

 この処理を超並列計算機にさせると計算ノード数が増えると処理時間がおおよそ線形の形で減少した。
 (→情報の輻輳があまり起こらない処理機構ができた)

 このシステムは単語列を単語列に変換するという意味では完全なものとなっている。
Comments