クエリと説明文の関係を表す記述要素辞書の構築



概要

 我々は「ある話題語について検索したとき、得られた文章が話題語についてのどのような内容を説明しているかを推定する」という問題を設定し、解決に取り組んでいる。

 例えば「ローパスフィルタ」ならば「機能」「副作用」「設計方法」などの語があり得る。
これらの語を記述要素と呼ぶ。

 本研究では、この記述要素の辞書をIPADIC中の73006語の名詞群から人手判定し、構築した。

 記述要素は「話題語と文の関係を表す名詞」であり、ここでは当該名詞が満たすべき、また満たすべきでない性質を明らかにした。
 性質はそれぞれ以下の6つが存在する
・話題語の性質を表す包含性
・話題語の説明に文が続くかを表す文接続性
・その名詞が話題語とは異なる具体的事物を示す実在性
・説明が固有名詞や名詞のリストであり文にはならないことを表す固有性
・話題語についての説明であれば大部分を拾ってしまう抽象性
・説明文に特徴がないことを示す非安定性

 結果、以下が得られた
・「工程」のような記述要素の核となる基本要素1664語
・記述要素の後に続く説明文が特定のキーワードを持たない「影響」のような語を含む非安定要素222語
・「概要」のように話題語の説明であれば大部分を含んでしまう抽象要素140語
・「着衣」のような話題語と結びついて複合語として新たな話題語になってしまい関係名にならない語である具体要素47語

 また副産物として、性質の有無によって、純粋に属性と呼べる語の特徴を明らかにした。


入手方法

記述要素辞書は無償配布です。
 ただ、利用範囲を知りたいため、現在はDL形式ではなく、希望者にメールを送っていただく形式となっています。
 利用希望者は是非、久保木山本までご連絡ください。


研究意図の解説

 我々は「ある話題語について検索したとき、得られた文章が話題語についてのどのような内容を説明しているかを推定する」という問題を設定し、解決に取り組んでいる。

<例>
(話題語)ステロイド
(記述要素)副作用
(説明文)ステロイドの副作用には細胞の増殖ないし繊維新生抑制作用に基づくものとして、皮膚萎縮、ステロイド紫班、ステロイド潮紅、毛細血管拡張などがある


 これを達成することで、説明文を読まずとも、話題語について「どんな説明をしているのか」を記述要素を見るだけですぐ理解可能である。
 記述要素は、検索支援や、特定の話題語に対するレポートを自動生成する際の文分類に転用可能である。


 これまでの研究によって、文に対して記述要素を自動的に付与するためには、(話題語,記述要素,記述要素決定要素=キーワード)のペアが必要だと判明している。

 しかし、記述要素となる語はどのような語なのか、話題語ごとに異なってしまうのか、語数が多すぎて把握できないのではないか、といったことはわかっていない。

 これに対して、具体的な話題語を定めてとりあえず人間の感覚によってとりあえずの記述要素を集めることは可能だが、このような具体的タスクを定めて一つ一つ解決していく方法は、個々の事象に一致する記述要素を見いだすことはできても、そもそもの目的である「ある話題語について検索したとき、得られた文章が話題語についてのどのような内容を説明しているかを推定する」という課題を最終的に達成するものには至らない可能性が高い。

 なぜなら、具体的タスクは例外を大量に作り出すためである。例えば「ローパスフィルター」という話題語を設定した場合は、「効果」や「不具合」などは記述要素になり得ても、「衛生」や「運搬」といった語は除外するしかない。しかし話題語が「リンゴ」など食品であれば「衛生」が、「競走馬」という話題語であれば「運搬」などは重要な記述要素となる。


 本研究は「ある話題語について検索したとき、得られた文章が話題語についてのどのような内容を説明しているかを推定する」という目標を達成するために、まずは「話題語と説明文の関係名」にあたる記述要素の正体を見いだすことが目的である。それは話題語のドメインによって依存するものではないし、依存するものを作ったところで本研究においては価値はない。

 従って、本研究では単に記述要素辞書を作るのではなく、あらゆる話題語に通用する記述要素辞書を作るために「話題語と説明文の関係名」が持っていなくてはならない性質も明らかにし、記述要素そのものがもつルールを明確化しながら、記述要素辞書の構築を行う。


用語定義

 話題語

 原則的には「名詞」と設定している。ただし、ここでいう名詞は「何らかの説明文を持つべきシンボルとしての語」という定義である。
 話題語はユーザーが任意に入力してよく、それに対して記述要素を付与することを想定している。

 記述要素

 話題語と説明文の間に成立する関係名を指す。
 本研究において、六つの性質の有無によって記述要素の定義を明確化した。

 なお、今回性質の有無によって定義を明確化するのではなく、複数人で記述要素になる語、ならない語を決めてカッパー値をとるなどの方法を用いた方が良いのではないか、という考えもあるが、これは以下の点で問題がある。

・記述要素の定義を個々に揺れない条件によって明確化することができない
 具体的な話題語に対して記述要素辞書を作る場合や、とりあえず使える小規模な辞書を作る場合は記述要素の定義を数値的な要因で明確化するというアプローチもとれるが、本研究ではそれはできない。
 なぜなら、本研究の目的は「話題語と説明文の関係名」というものの正体を明らかにすることも含まれているからである。

 これまでは、単語間の関係名や、特定の(例えば因果関係における)細かい分類としては**がある、のような分類は可能だったが、話題ごと文の間を結びつける関係名というものは明確に定義されていない。また、この定義が不明瞭であるために、関係名というものに全てを一括してしまい、逆にその関係名がもたらす役割がなんなのかがわかりにくくなっている場合がある。例えば属性などはその最たる例であり、「ここではこのような意図で属性と呼ぶ」という形で研究ごとに属性の意図を定義している状態にある。

 人の感覚といっても、異なるそれぞれの人々が共通の語を挙げる場合、そこには共通の語を挙げるメカニズムが存在する。その基本に立ち直って考えれば、そこを無視して、人の感覚の和集合を安易にとることは、メカニズムを無視した形になってしまう。学術的な研究としては、ここは不明瞭にしておくべきでなく、特に「話題語と説明文」という枠組みが言語処理において重要なものの曖昧に済まされてきた領域であるのは間違いない。

 そこで、「話題語と説明文」の間に働く関係のメカニズムを、性質を定義することによって理論的に明確化することは、学術的に必要なことだと考え、本研究ではこの定義を多人数が合意できるルール=性質を定義することによって満たす事とした。

 キーワード

 説明文に対して記述要素を付与する際に、手がかりとなる説明文中の語。

 「ローパスフィルターは画像をぼかすことでモアレや偽色を低減する」というテキストは、
 「話題語=ローパスフィルター記述要素=働きであり、キーワード=低減する」である。

 これはローパスフィルターの働きの聖滅出あることを保証する語が「低減する」であると読み替えることができる。



分類方法

 以下に示す6性質の有無を、単語ごとに3名で判定した。
 3名で不一致が発生した場合は、性質の再定義を行い、合意できるまで性質の定義を再設定した。

 必要な性質=記述要素となる語が持っていなくてはならない性質
 不必要な性質=記述要素となる語が持っていると、語の機能を曖昧にする、なるべくなら持っているべきではない性質

 包含性(必要な性質)

記述要素が話題語の特徴や性質を包含していることを保証する性質
・その話題語が"生来保有している、あるいは持つ事が確定している"特徴、性質、機能、属性、事柄などである

(包含性を持つà記述要素たり得る)

花瓶à生来保有している性質

自衛隊装備à生来保有することが確定している特徴


(包含性をもたない語)

ヨドバシカメラ広告à生来持つ性質とは言えない


 文接続性(必要な性質)

話題語の記述要素とはのあとに文章が接続される性質
・“話題語の記述要素とはのあとに文が続く
形容表現のみ(「雨脚強い」など)は除く

(文接続性を持つà記述要素たり得る語)

画風>いわき絵のぼりの画風とは江戸時代の浮世絵、 特に歌川派の影響が強いと言われています


(文接続性を持たない)

パソコンの型名à名詞一語で表現可能。説明文が続かない


 実在性(不必要な性質)

当該語が話題語とは別の具体的事物として存在する事を示す性質
 (àたとえ包含性があったとしても話題語を直接的に示す説明との関係名にならない)
・実際に具体物として実在する事物である

(実在性を持つà記述要素たり得ない)

PC代金à現金として提示可能な具体物

幼稚園園長à連れてくることが可能な具体物


(実在性を持たない)

肌のつやà色つやだけを取り出して具体物としてこれ、と示すことはできない

 固有性(不必要な性質)

話題語の記述要素とは」のあとに続く物が特定の名詞や形容詞、そのリストなど固有のものである性質
記述要素は属性と違い「話題語と文の関係を表す」ことを目的としているためこの性質は困る

(固有を持つà記述要素たり得ない)

面積>日本の面積377,911平方キロメートル

主要言語>ベルギー主要言語はオランダ語、フランス語、ドイツ語

音沙汰>**さんの音沙汰がある à 例外的にある/ない以外に表現がなさそうなものも含む


(固有を持たない)

旋盤の扱いà文でしか説明できない


 抽象性(不必要な性質)

話題語の説明ならどんなものでも含んでしまう抽象的な語である性質

(抽象を持つà記述要素たり得ない)

概略>この論文概略はである

à概略の中には「この論文」の話題なら大抵なんでも入れることができてしまう


(抽象を持たない)

ドリル選び方>基本的にはのような用途に合わせて選んでください

àドリルの話題でも選び方だけに限った説明をしている

 非安定性(不必要な性質)

話題語の記述要素とは」の後に文が続く説明文が一定の形式や特徴を持った文とはならず安定しない性質

(非安定を持つà記述要素になるが、曖昧)

存否>親子関係の存否とは、生物学的な親子関係が存在するか否かの問題で、倫理問題や司法判断が入り込む余地は全くない問題だと思います

à記述要素を特定するキーワードを持たない


(非安定を持たない)

働き>ローパスフィルターの働きとは画像ぼかすことでモアレや偽色を低減することである

àぼかす,低減する=記述要素を特定するキーワードを持つ



記述要素辞書詳細

 まとめ


包含性 文接続性 実在性 固有性 抽象性 非安定性 個数
記述要素 × × × × 1664(45%)
非安定要素 × × × 222(6%)
抽象要素 × × - 140(4%)
具体要素 × × - 47(1%)
純粋属性 - × × - 795(22%)
全語数 3674
非該当 806(22%)









 記述要素

例)アーキテクチャ, 因習, 原因, 客層, 業務, 国柄, オリジナリティ, 外観, 会規, 外形, 剪定, 外見, 戒告, 解決, 外需, 会則, 解除, 害毒, 解消, 改正, 解析, 外聞, 涯分, 解法, 改定, 役目,

(話題語) ローパスフィルター

(記述要素)役目

(例文)ローパスフィルター役目は、モアレや偽色の原因となる細かい模様を、撮像素子に入射してくる前にある程度ぼかしてしまおうというものです

・記述要素の果たす必要最低限の性質を持ち、かつ曖昧な語を取り除いたもの=記述要素の核となる語群
・このような性質をもつ語は元々の名詞群73006語の2%

 非安定要素

例)工夫 , 悪因 , 悪材料 , 悪条件 , アウトプット , 悪例 , 出力 ,塩梅, 言い回し, 言回し, 印象, 言いよう, 言い様, 意趣, 異説, 意想, …

(話題語) 日本

(記述要素)印象

(例文)日本の印象は、住空間の狭さと、物価の高さをマイナスに感じているということが伺える。


・記述要素に対して非安定性の性質を持つもの
ここに属する語は説明文中に記述要素を確定させる特定の語=キーワードを持ちにくいため、キーワードを用いて記述要素を付与する先行研究とは別の手法が必要

 抽象要素

例)含意, 考え方, 局面, プラン, 基軸, 基調, 基本, 言説, 言論, 梗概, 講説, , 細則, , 実質, 主意, 概説, 総論, 主旨, 主題, …

(話題語) オリンピック

(記述要素)主旨

(例文)オリンピックの主旨はスポーツを通じて心身の成長を促し、世界の相互交流と平和を目指すということになってはいるが、近代に入ると打って変わり、一大ビジネスチャンスとしての側面が強まっている。


・記述要素のうちでも話題語に対する説明範囲が広い

・ここに属する語はいずれも話題語が決まればその話題語における説明であればまず付与できてしま「どんな説明がされているのか」を知りたい時は利用価値が低い


 具体要素

例)資財, 下地, ターゲット, 対価, 蓄え, 貯え, 着衣, 直系, 付き物, 取り分, 取分, 標的, 物証, , ボーナス, 基礎, 骨組, 土台, ,

(話題語)釈迦

(記述要素)着衣

(例文)釈迦の着衣は截金文様 (きりかねもんよう)で装飾され、画面中央に光が集まる効果的手法がとられている。


記述要素の性質を満たしつつも実在性を保有する語群
・ここに属する語は話題語の性質でなく「話題語+具体要素=別話題語」となる


 純粋属性

例)音調, 公課, 呼び名, 色つや, カロリー, 本名, 学力, 春期, 課目, けた数, 兵員, 戸数, 定年, 得意, 年産, 原価, 当字 , 国籍,

(話題語)豆腐

(記述要素)カロリー

(例文)豆腐のカロリーは100g72kcal、特に絹ごし豆腐のカロリーは100gでなんと56kcal


・属性として最低限の要件を満たした
記述要素と区別すること
語と語の関係を表す純粋属性
語と文の関係を表す記述要素
とい性質違い関係付与手法分けて構築可能



辞書構築に関する覚え書き

 通常、辞書構築は専門知識が必要であるだけでなく、複数人の専門知識のある人を集めて作業し、それぞれの選択したものをすりあわせます。

 が、このように性質という形で語の抽出条件を設定した場合は、性質を設定する人は専門知識が必要ですが、各作業者は専門知識が無くてもその条件に沿って語の抽出を行うため、最終的には少数の専門家と大部分の普通の作業者という形でタスクを分解できます。

 もし大勢の専門家を集めるのが大変で辞書を作るのが難しいといった場合、このような方法をとることも良いと考えています。


Comments