研究室‎ > ‎卒業生のみなさまへ‎ > ‎山形 祐輝‎ > ‎知識‎ > ‎

情報検索

随時更新します

・情報検索とは
広義:ユーザの持つ問題を解決できる情報を見つけ出すこと
狭義:ユーザのクエリに対し適切な文書を文書集合から見つけ出すこと

・索引付け
文書から索引語を抽出すること
索引語:文書を特徴づけるためのもので、その単位はシステムに依存するが、一般には単語や複合語であることが多い
この作業で重要なことは索引語を漏れなく抽出すること
特定性を高くする(精度を上げる)ためには、その文書にあって、ほかの文書にない索引語を選択する
網羅性を高くする(再現率を上げる)ためには、一般的によく使われる語を選択する
この両者のバランスをどうとるかが課題
・索引のつけ方
    人手による索引付け:精密性は高いが、作業者による揺れがあり一貫性が保証できない
    自動索引付け:意味のない索引語を抽出する可能性があるが、一貫性は保証される
                         人手のものと同性能あるいはそれ以上
・索引語の制限
    統制索引語:決められた語の集合から選択(語彙制限)
        文書中に「お母さん」があっても、統制索引語に「母親」しか登録されていなかったら、「母親」と付与する
        検索者(ユーザ)も統制索引語内の語で検索する必要がある
            利点:文書とクエリで表現の不一致が少ない
            欠点:表現が制限されるため、新しい語が追加される分野では保守にコストがかかる
    自由索引語:語彙制限を行わず文書中の語を使う
        
文書中に「お母さん」があったら、「お母さん」と付与する
            利点:上記のように文書中の語がつかえるため、コストを低く作成可能
            欠点:
文書とクエリで表現の不一致が多い
・重み付け
・索引語頻度(term frequency)
・IDF
・信号/雑音比
・識別値

・検索モデル(基本的な特徴)
・ブーリアンモデル
クエリを論理式で表現
クエリ中の索引語があるかどうかを見て、論理式に当てはまるものを出す
索引語の重みを扱わないため、順序付けができない
・ベクトル空間モデル
行が索引語、列が文書、要素が文書に出てくる索引語の重みである行列とすると
文書(列ベクトル)を索引語の重みベクトルとして表現ができる
クエリも同じく重みベクトルで表現できるため、ベクトル間の類似度によって適合度を計算する
クエリの索引語に重みづけできるため、ユーザが重みを修正することで最適化することができる
検索結果の順序付けが可能(類似度の高い順)
文書集合中の文書数に応じて計算量が増える(転置ファイルを用いると削減可能)
・確率モデル
理論的基礎がしっかりしており、値が明確に意味を持っている
クエリに複雑な論理式を組み立てる必要がない
ただし、確率パラメータをどのように推定するかが問題
初期値を適当に決め検索を行い、ユーザに適合性を判断してもらい、フィードバックを繰り返すことで改善が期待できる
あらかじめ最適文書集合が分かっているような状態であれば最適な検索結果を得られる
・ファジィ集合モデル
論理演算子と順序付けは表裏一体の関係にあるため、補うようにブーリアンモデルを拡張したもの
文書中の索引語と文書の関連性をメンバシップ関数で表すことで、順序付けが可能
クエリはブーリアンと同じく論理式
メンバシップ関数の決め方に関する理論がなく、フィードバック方法も明らかでない
・拡張ブーリアンモデル
空間ベクトルモデルを基にブーリアンモデルの特徴を組み込んだもの
計算量が大きいため、ブーリアンモデルで文書集合を絞ってから拡張ブーリアンに切り替えるのが一般的
・ネットワークモデル
文書、索引語、クエリを節点で表現し、それらを弧で結んだ図で表される
弧の意味づけはモデルにより異なる
グラフの特徴から文書とクエリの関連の強さを求める
・クラスタモデル


参考文献
    言語と計算5 情報検索と言語処理、徳永健伸 著、辻井潤一 編、東京大学出版会
Comments