日本語の文について曖昧性を持つ単語に対して【話題】を付与したデータセットです。
例えば「ドライバー」という単語は「ゴルフのクラブ」「運転手」「ねじ回し」等、複数の意味を持っています。これらに対して「ドライバーは安全運転をしなければならない」といった文中のドライバーに対して話題に基づくカテゴリ「自動車」を付与したものがこのデータセットとなります。
掲載単語(50語):アーチ、アクセス、ウイルス、オープン、カード、カット、グラス、クリーム、コース、コート、コード、ショット、スクリーン、ストック、ターミナル、タイトル、ツアー、ドライバー、ドライブ、トラック、パート、バス、バック、フラット、プレーヤー、ベース、ホーム、ポスト、マフラー、ミキサー、ラム、リード、角、株、軌道、銀、喰う、刑事、市場、糸、節、戦線、洗う、前線、台所、脱水、鉢、法、洋画、翼
掲載文数:28,872文(1単語あたり平均577文)
付与した話題は SNOW D11:話題分類単語辞書にあるカテゴリを使用しています。
付与されるカテゴリは我々が独自に定義したものになっています。話題数は228です。
話題辞書と組み合わせることで、語義に強く共起する単語群を容易に取得することが可能です。
データの抽出方法の関係上カテゴリに属さない文も含まれると考え、「その他」カテゴリを設けています。
既存の語義曖昧性解消データセットに比べて非常に粗い粒度のものとなっています。
日本語の語義曖昧性解消では岩波国語辞典の語義をベースにしたSemEval-2010 Task: Japanese WSD[1]が有名ですが、それらに対して我々が公開するデータセットは粒度が話題単位であるため粗く、文脈が大きく異なるため比較的簡単であると想定されます。
データセットの作成方法については下記の関連文献[2]をご覧ください。
クラウドソーシングに基づき作成されたデータセットになっているため誤りなどが多く存在している場合があります。
GitHubにて同様のデータを公開しているので、もし使用に際して間違いなどを見つけた場合はPullRequestを投げてもらえると非常にありがたいです。