擬似Nグラムを用いた助詞的定型表現の自動抽出

新納 浩幸,井佐原 均
擬似Nグラムを用いた助詞的定型表現の自動抽出
情報処理学会論文誌 Vol. 36, No. 1, pp. 32-40 (1995)
形態素解析を行わずに,字面処理によって助詞に相当する定型表現(助詞的定型表現)をコーパスより自動抽出する.


第0段階
取り出したい助詞的定型表現の最小の長さkと,含まれる漢字列の長さの最大長nを設定する

第1段階
knに依存するある種の文字列だけを対象に,コーパス中の出現頻度を調べる.
その際に,その文字列の前後に句読点があるものの個数も記録しておく.
(擬似N_k^nグラム)

第2段階
擬似Nグラムからいくつかのヒューリスティクスを用いて,助詞的定型表現となりそうな文字列を選択する.
  1. 含まれる漢字列の長さが1以下
  2. 先頭の単語は助詞
  3. 前に句読点は現れない
  4. 次に句点は現れない

第3段階
擬似Nグラムを用いて,第2段階で選択された文字列各々が助詞的定型表現となるか否かを決定する.
名詞は多くの場合漢字で表記される
ほとんどの自立語の先頭の文字は漢字
などを用いて
Comments