言語商会

差分

このページの2つのバージョン間の差分を表示します。

この比較画面にリンクする

次のリビジョン
前のリビジョン
snow:e19 [2021/09/07 12:48]
admin 作成
snow:e19 [2021/09/07 20:05] (現在)
admin
行 1: 行 1:
 +[[:|言語商会]]>[[:lab:|旧研究室]]>[[:SNOW:|SNOW]]
 +~~NOTOC~~
 +
 ===== SNOW E19:話題に基づく語義曖昧性解消評価セット ===== ===== SNOW E19:話題に基づく語義曖昧性解消評価セット =====
 === Name in English === === Name in English ===
行 5: 行 8:
 === 内容 === === 内容 ===
   * 日本語の文について曖昧性を持つ単語に対して【話題】を付与したデータセットです。   * 日本語の文について曖昧性を持つ単語に対して【話題】を付与したデータセットです。
-  * 例えば「ドライバー」という単語は「ゴルフのクラブ」「運転手」「ねじ回し」等、複数の意味を持っています。これらに対して「ドライバーは安全運転をしなければならない」といった文中のドライバーに対して話題に基づくカテゴリ「自動車」を付与したものがこのデータセットとなります。 +    * 例えば「ドライバー」という単語は「ゴルフのクラブ」「運転手」「ねじ回し」等、複数の意味を持っています。これらに対して「ドライバーは安全運転をしなければならない」といった文中のドライバーに対して話題に基づくカテゴリ「自動車」を付与したものがこのデータセットとなります。 
-  * 掲載単語(50語):アーチ、アクセス、ウイルス、オープン、カード、カット、グラス、クリーム、コース、コート、コード、ショット、スクリーン、ストック、ターミナル、タイトル、ツアー、ドライバー、ドライブ、トラック、パート、バス、バック、フラット、プレーヤー、ベース、ホーム、ポスト、マフラー、ミキサー、ラム、リード、角、株、軌道、銀、喰う、刑事、市場、糸、節、戦線、洗う、前線、台所、脱水、鉢、法、洋画、翼 +    * 掲載単語(50語):アーチ、アクセス、ウイルス、オープン、カード、カット、グラス、クリーム、コース、コート、コード、ショット、スクリーン、ストック、ターミナル、タイトル、ツアー、ドライバー、ドライブ、トラック、パート、バス、バック、フラット、プレーヤー、ベース、ホーム、ポスト、マフラー、ミキサー、ラム、リード、角、株、軌道、銀、喰う、刑事、市場、糸、節、戦線、洗う、前線、台所、脱水、鉢、法、洋画、翼 
-  * 掲載文数:28,872文(1単語あたり平均577文) +    * 掲載文数:28,872文(1単語あたり平均577文) 
-  * 付与した話題は SNOW D11:話題分類単語辞書にあるカテゴリを使用しています。 +  * 付与した話題は [[D11|SNOW D11:話題分類単語辞書]]にあるカテゴリを使用しています。 
-  * 付与されるカテゴリは我々が独自に定義したものになっています。話題数は228です。 +    * 付与されるカテゴリは我々が独自に定義したものになっています。話題数は228です。 
-  * 話題辞書と組み合わせることで、語義に強く共起する単語群を容易に取得することが可能です。 +    * 話題辞書と組み合わせることで、語義に強く共起する単語群を容易に取得することが可能です。 
-  * データの抽出方法の関係上カテゴリに属さない文も含まれると考え、「その他」カテゴリを設けています。+    * データの抽出方法の関係上カテゴリに属さない文も含まれると考え、「その他」カテゴリを設けています。
   * 既存の語義曖昧性解消データセットに比べて非常に粗い粒度のものとなっています。   * 既存の語義曖昧性解消データセットに比べて非常に粗い粒度のものとなっています。
-  * 日本語の語義曖昧性解消では岩波国語辞典の語義をベースにしたSemEval-2010 Task: Japanese WSD[1]が有名ですが、それらに対して我々が公開するデータセットは粒度が話題単位であるため粗く、文脈が大きく異なるため比較的簡単であると想定されます。+    * 日本語の語義曖昧性解消では岩波国語辞典の語義をベースにしたSemEval-2010 Task: Japanese WSD[1]が有名ですが、それらに対して我々が公開するデータセットは粒度が話題単位であるため粗く、文脈が大きく異なるため比較的簡単であると想定されます。
   * データセットの作成方法については下記の関連文献[2]をご覧ください。   * データセットの作成方法については下記の関連文献[2]をご覧ください。
-  * クラウドソーシングに基づき作成されたデータセットになっているため誤りなどが多く存在している場合があります。 +    * クラウドソーシングに基づき作成されたデータセットになっているため誤りなどが多く存在している場合があります。 
-  * GitHubにて同様のデータを公開しているので、もし使用に際して間違いなどを見つけた場合はPullRequestを投げてもらえると非常にありがたいです。+    [[https://github.com/nut-jnlp/JapaneseTopicWSD/|GitHubにて同様のデータを公開している]]ので、もし使用に際して間違いなどを見つけた場合はPullRequestを投げてもらえると非常にありがたいです。
  
 === ダウンロード === === ダウンロード ===
-  * ZIPファイル (3.24MB)+  * [[https://www.jnlp.org/cgi-priv/download.cgi?id=SNOW/E19|ZIPファイル]] (3.24MB)
   * 解凍後は TSV形式で単語ごとに別ファイルとなっており、全部で50ファイルあります。   * 解凍後は TSV形式で単語ごとに別ファイルとなっており、全部で50ファイルあります。
   * 各TSVファイルの先頭行に簡単な語義の定義が付属しています。   * 各TSVファイルの先頭行に簡単な語義の定義が付属しています。
 (感想・要望・情報提供)