言語商会

言語商会旧研究室SNOW

SNOW E19:話題に基づく語義曖昧性解消評価セット

Name in English

  • SNOW E19: Evaluation dataset for Japanese word sense disambiguation based on topics

内容

  • 日本語の文について曖昧性を持つ単語に対して【話題】を付与したデータセットです。
    • 例えば「ドライバー」という単語は「ゴルフのクラブ」「運転手」「ねじ回し」等、複数の意味を持っています。これらに対して「ドライバーは安全運転をしなければならない」といった文中のドライバーに対して話題に基づくカテゴリ「自動車」を付与したものがこのデータセットとなります。
    • 掲載単語(50語):アーチ、アクセス、ウイルス、オープン、カード、カット、グラス、クリーム、コース、コート、コード、ショット、スクリーン、ストック、ターミナル、タイトル、ツアー、ドライバー、ドライブ、トラック、パート、バス、バック、フラット、プレーヤー、ベース、ホーム、ポスト、マフラー、ミキサー、ラム、リード、角、株、軌道、銀、喰う、刑事、市場、糸、節、戦線、洗う、前線、台所、脱水、鉢、法、洋画、翼
    • 掲載文数:28,872文(1単語あたり平均577文)
  • 付与した話題は SNOW D11:話題分類単語辞書にあるカテゴリを使用しています。
    • 付与されるカテゴリは我々が独自に定義したものになっています。話題数は228です。
    • 話題辞書と組み合わせることで、語義に強く共起する単語群を容易に取得することが可能です。
    • データの抽出方法の関係上カテゴリに属さない文も含まれると考え、「その他」カテゴリを設けています。
  • 既存の語義曖昧性解消データセットに比べて非常に粗い粒度のものとなっています。
    • 日本語の語義曖昧性解消では岩波国語辞典の語義をベースにしたSemEval-2010 Task: Japanese WSD[1]が有名ですが、それらに対して我々が公開するデータセットは粒度が話題単位であるため粗く、文脈が大きく異なるため比較的簡単であると想定されます。
  • データセットの作成方法については下記の関連文献[2]をご覧ください。
    • クラウドソーシングに基づき作成されたデータセットになっているため誤りなどが多く存在している場合があります。
    • GitHubにて同様のデータを公開しているので、もし使用に際して間違いなどを見つけた場合はPullRequestを投げてもらえると非常にありがたいです。

ダウンロード

  • ZIPファイル (3.24MB)
  • 解凍後は TSV形式で単語ごとに別ファイルとなっており、全部で50ファイルあります。
  • 各TSVファイルの先頭行に簡単な語義の定義が付属しています。

利用制限・免責事項

  • 利用制限は特にありません。
  • 再配布は禁止します。
  • 本研究室は、本言語資源の内容に関する完全性、正確性、適用性、有用性などいかなる保証も行いません。 また、本研究室は本言語資源の提供の遅延、もしくは中断、または本言語資源の利用、もしくは利用不能に起因して本人または他の第三者が被った損害に対して一切の責任を負いません。
  • 研究利用の際は下記の関連文献[2]を引用いただけると助かります。

関連文献

  • [1] Okumura, M., Shirai, K., Komiya, K., Yokono, H.: SemEval-2010 task: Japanese WSD. In: Proceedings of the 5th International Workshop on Semantic Evaluation (Semeval 2010), Uppsala, Sweden, pp. 69–74 (2010)
  • [2] 桾澤 優希, 山本 和英. 話題に基づく語義曖昧性解消. 言語処理学会第24回年次大会, pp.248-251 (2018.3) [原稿] [ポスター]

フィードバック

  • 本公開に対する責任はすべて山本にあります。
  • 本公開に関するあらゆるご意見・苦情・ご感想は山本にお送りください。
  • 辞書内容の改善にご協力いただける方を歓迎します。記述内容に追加や誤りなどがありましたらお送りいただければ改訂します。
 (感想・要望・情報提供)