同義扱いされる表現を弁別する

那須川哲哉,荻野紫穂,西山莉紗,金山博
同義扱いされる表現を弁別する
NLP2012 F1-3 pp.167-170 (2012)

はじめに

何種類もの表現で同じ内容を示すことができる「表現の多様性」
普段はこの多様性を吸収する

しかし,表現が異なる場合書き手がこめた意図やニュアンスが異なる可能性がある.

同義表現を弁別する試み
同義表現:工学的応用の観点から一般的に同義扱いされている表現

取り組みのきっかけ

国土交通省が収集・公開している「自動車不具合情報

「ブレーキが効かない」と「ブレーキが利かない」
同じ現象を示していると考えられるため,両者の出現分布には大きな差はないと想定される
→特定の車種のみ「ブレーキが利かない」の割合が突出して高かった
→「ブレーキが効かない」は2005年までに不具合が報告された車種,「ブレーキが利かない」は2006年以降に不具合が報告された車種

表現の違いがデータ中に現れる時期の違いを表していた

同義表現パタン化の試み

具象物や固有名に関する表現のみを対象

同義表現が発生する要因には多様性が大きい
→少数パタンで網羅的に扱うのは困難

同義表現の弁別因子

表現の違い
書き手の特徴に起因するケース
文書の特徴に起因するケース

・表現の違いの要因となる書き手の特徴
世代や出身・居住地域,所属組織など

「国鉄」「JR」→世代
「マック」「マクド」→地域

・表現の違いの要因となる文書の特徴
公的文書か私的文書か
私的文書でも目上の人に当てた文書か
表現を使う場の特徴

「小田急電鉄」は多くの場合「小田急」と表現される
「小田急電鉄」と正式名称で表現するのはニュースなど公的性質の高い文書

応用可能性

テキストマイニング
機械翻訳
外国語教育

おわりに

Comments