blog解析に基づくWeb情報検索の信頼性向上技術

中島 伸介,竹原 幹人,舘村 純一,日野 洋一郎,原 良憲,田中 克己
blog解析に基づくWeb情報検索の信頼性向上技術
人工知能学会 第6回セマンティックウェブとオントロジー研究会,SIG-SWO-A401-05(2004)

Web情報検索の信頼性向上のための手法の提案

1 はじめに

Web掲示板:書き手不明→信憑性を判断するための情報が不十分
blog:書き手が過去にどのような記事を書いているのかが把握できる→評価が行いやすい

2 関連研究

==================================
 途中まで言語処理とは直接関係がなさそう
==================================

3 blogスレッドの抽出および解析手法

bolgスレッド「あるイベントについて意味的関連性の高いblogエントリのつながり」

スレッド内における各エントリの位置づけを評価
→blogサイトの特性の判別

(1) Topicfinder
議論が盛んに行われたblogスレッドにおいて,スレッドの初期段階にエントリを提供することが多いblog投稿者
議論するための良いトピックを見つけることが多い
→スレッドが将来成長するかどうかの判断材料にできる

(2) Agitator
議論が盛んに行われたblogスレッドにおいて,議論が盛んになる直前にエントリを提供することが多いblog投稿者
議論が盛んになるきっかけを作っている可能性が高い
→スレッドが成長する時期を予測するための判断材料にできる

(3) Opinion Leader
他のblogエントリから参照されることが多いblog投稿者
重要な見解を効率良く取得できる

(4) Summarizer
他の多くのblogエントリを参照することが多いblog投稿者
blogスレッドをまとめたような書き込みを効率良く取得できる可能性


blogスレッドに関する調査実験

トラックバックを手作業で辿り,スレッドに関する事例を収集

調査実験の制限
・blogエントリ動詞の意味的な関連を考慮しない
・データ数が十分ではなく統計的解析していない

各スレッドの成長過程には,急激にエントリ数が増加する成長期と,エントリの増加量がほとんどない停滞期が存在
(停滞期)→成長期→停滞期

Opinion Leader候補であるエントリは,Agitator的な存在である可能性

Summarizerのようなエントリは見られなかった

==================================
 ここまで言語処理とは直接関係がなさそう
==================================

4 blog情報に基づくトラスト値の算出方法

blogの書き手ががどのような分野の知識について詳しいかを推定
blog記事内で参照先のページについてどのように評価しているのかを推定

・どれだけ多くのユーザに読まれているか(人気)
・最近の注目のトピックやニュースを早く記事として載せているか(更新の早さ)
・他の信頼できるblogサイトを記事中で参照し,肯定的に紹介しているか(正確さ)
・他のサイトからより多く支持されているか(支持)

書き手がどのようなトピックについて詳しい知識を持っているか
文章中に頻出する名詞がどのようなカテゴリに属するのか

参照先のページに対して肯定的な評価を下しているか
単語の単純なマッチング

blogサイト自体の信頼性を推定
信頼できるblogサイトから良い評価を持って参照されたページを良いとする


「文献紹介」に戻る
Comments