ユーザ用ツール

サイト用ツール


重要度:tf-idf

差分

このページの2つのバージョン間の差分を表示します。

この比較画面へのリンク

両方とも前のリビジョン前のリビジョン
次のリビジョン
前のリビジョン
重要度:tf-idf [2022/04/29 14:48] – ↷ 移動操作に合わせてリンクを書き換えました。 admin重要度:tf-idf [2022/10/22 17:57] (現在) admin
行 1: 行 1:
 ===== TF-IDF ===== ===== TF-IDF =====
-==== TF-IDFとは ====+=== TF-IDFとは ===
   * term frequency - inverse document frequency   * term frequency - inverse document frequency
   * 文書中に含まれる単語の[[:重要度]]を評価するアルゴリズム。文書のベクトル化など様々な用途に使われる。   * 文書中に含まれる単語の[[:重要度]]を評価するアルゴリズム。文書のベクトル化など様々な用途に使われる。
   * 単語の出現頻度(term frequency, TF)と逆文書頻度(Inverse document frequency, IDF)の積で定義。   * 単語の出現頻度(term frequency, TF)と逆文書頻度(Inverse document frequency, IDF)の積で定義。
   * 古典的でよく使われるが、そんなに精度がいい訳ではない。これだけ簡単な計算で得られる近似としてはすばらしい。   * 古典的でよく使われるが、そんなに精度がいい訳ではない。これだけ簡単な計算で得られる近似としてはすばらしい。
-    * 例えば、[[:okapi_bm25]]などは TF-IDFよりも精度がよいと言われている。+    * 例えば、[[重要度:okapi_bm25]]などは TF-IDFよりも精度がよいと言われている。
   * 1972年に[[https://en.wikipedia.org/wiki/Karen_Sp%C3%A4rck_Jones|Karen Spärck Jones]]がIDFの概念を発表したことがはじまり。   * 1972年に[[https://en.wikipedia.org/wiki/Karen_Sp%C3%A4rck_Jones|Karen Spärck Jones]]がIDFの概念を発表したことがはじまり。
  
-==== 意味付け ====+=== 意味付け === 
 +  * 2022-05-19 | [[https://zenn.dev/yuya_sato/articles/f9a58db4e05520|TF-IDFの理論的な意味付けについて]]
   * 2005-11-01 | [[http://chasen.org/~taku/blog/archives/2005/11/_tfidf_1.html|キーワード抽出: tf-idf の意味づけ]]   * 2005-11-01 | [[http://chasen.org/~taku/blog/archives/2005/11/_tfidf_1.html|キーワード抽出: tf-idf の意味づけ]]
  
-==== 派生 ====+=== 派生 ===
   * TF-IDFには様々な派生(改良)がある。例えば、[[https://en.wikipedia.org/wiki/Tf%E2%80%93idf#Derivatives|Wikipedia]]を参照。   * TF-IDFには様々な派生(改良)がある。例えば、[[https://en.wikipedia.org/wiki/Tf%E2%80%93idf#Derivatives|Wikipedia]]を参照。
  
-==== 記事 ====+=== 記事 === 
 +  * 2022-09-17 | [[https://zenn.dev/robes/articles/241f6c3fac1486|【自然言語処理】【Python】TF-IDFを使って文書の特徴をつかもう]]
   * 2021-12-24 | [[https://qiita.com/YYGGJJ_Q/items/a95adc2ee6db20489d7b|ニュースから漢字だけ抜き出してTF-IDFで類似性解析]]   * 2021-12-24 | [[https://qiita.com/YYGGJJ_Q/items/a95adc2ee6db20489d7b|ニュースから漢字だけ抜き出してTF-IDFで類似性解析]]
   * 2021-07-31 | [[https://qiita.com/kanta_yamaoka/items/7ab419e0eb59eac73311|単語の重要度の指標tf-idfの数式の感覚的な説明]]   * 2021-07-31 | [[https://qiita.com/kanta_yamaoka/items/7ab419e0eb59eac73311|単語の重要度の指標tf-idfの数式の感覚的な説明]]
行 23: 行 25:
   * 2020-12-04 | (動画) [[https://www.youtube.com/watch?v=nsEbfO3U2pY|【自然言語処理】tf-idf 単語の情報量を加味した類似度分析【Elasticsearch への道①】#084 #VRアカデミア]]   * 2020-12-04 | (動画) [[https://www.youtube.com/watch?v=nsEbfO3U2pY|【自然言語処理】tf-idf 単語の情報量を加味した類似度分析【Elasticsearch への道①】#084 #VRアカデミア]]
   * 2020-11-28 | [[https://qiita.com//y_itoh/items/1e91ec59dac403d8e8e6|3. Pythonによる自然言語処理 3-2. TF-IDF分析[小説にみる特徴語の検出]]]   * 2020-11-28 | [[https://qiita.com//y_itoh/items/1e91ec59dac403d8e8e6|3. Pythonによる自然言語処理 3-2. TF-IDF分析[小説にみる特徴語の検出]]]
 +  * 2020-11-22 | [[https://qiita.com/y_itoh/items/69234a384221e123a463|3. Pythonによる自然言語処理 3-1. 重要語抽出ツール TF-IDF分析[原定義]]]
   * 2020-09-19 | [[https://qiita.com/aramesaya/items/3976b6343fe0c7aeaf49|続・tf-idf関数を使わずに重みづけ]]   * 2020-09-19 | [[https://qiita.com/aramesaya/items/3976b6343fe0c7aeaf49|続・tf-idf関数を使わずに重みづけ]]
   * 2020-07-26 | [[https://whiletruedotcom.wordpress.com/2020/07/26/%E6%96%87%E7%AB%A0%E8%A7%A3%E6%9E%90%E3%81%AA%E3%81%A9%E3%81%A7%E4%BD%BF%E3%81%86tfidf%E3%82%92%E8%A8%88%E7%AE%97%E3%81%99%E3%82%8B%E3%83%A9%E3%82%A4%E3%83%96%E3%83%A9%E3%83%AA%E3%82%92%E4%BD%9C/|文章解析などで使うTFIDFを計算するライブラリを作ってみた]]    * 2020-07-26 | [[https://whiletruedotcom.wordpress.com/2020/07/26/%E6%96%87%E7%AB%A0%E8%A7%A3%E6%9E%90%E3%81%AA%E3%81%A9%E3%81%A7%E4%BD%BF%E3%81%86tfidf%E3%82%92%E8%A8%88%E7%AE%97%E3%81%99%E3%82%8B%E3%83%A9%E3%82%A4%E3%83%96%E3%83%A9%E3%83%AA%E3%82%92%E4%BD%9C/|文章解析などで使うTFIDFを計算するライブラリを作ってみた]] 
   * 2020-07-13 | [[https://note.com/shimakaze_soft/n/n6e92d1a4851b|自然言語処理の基礎であるTF-IDFの計算方法とPythonによる実装方法を解説]]   * 2020-07-13 | [[https://note.com/shimakaze_soft/n/n6e92d1a4851b|自然言語処理の基礎であるTF-IDFの計算方法とPythonによる実装方法を解説]]
-  * 2019-04-09 | [[https://note.com/shimakaze_soft/n/nf02b0f8ab0f6|自然言語処理の基礎である形態素解析からbowによるベクトル化、TF-IDFによる重み付けまで解説]] - [[形態素解析:mecab:top]], [[言語モデル:bag_of_words]] +  * 2019-04-09 | [[https://note.com/shimakaze_soft/n/nf02b0f8ab0f6|自然言語処理の基礎である形態素解析からbowによるベクトル化、TF-IDFによる重み付けまで解説]] - [[形態素解析:mecab]], [[言語モデル:bag_of_words]] 
-  * 2018-05-11 | [[https://premium.aidemy.net/magazine/entry/2018/05/11/162024|Pythonで国会議事録から、話題の政治ワードを抽出してみた]] - [[データ:スクレイピング]], [[形態素解析:mecab:top]], [[:matplotlib]], [[環境:excel]]+  * 2018-05-11 | [[https://premium.aidemy.net/magazine/entry/2018/05/11/162024|Pythonで国会議事録から、話題の政治ワードを抽出してみた]] - [[データ:スクレイピング]], [[形態素解析:mecab]], [[:matplotlib]], [[環境:excel]]
   * 2005-10-12 | [[https://chalow.net/2005-10-12-1.html|形態素解析と検索APIとTF-IDFでキーワード抽出]]   * 2005-10-12 | [[https://chalow.net/2005-10-12-1.html|形態素解析と検索APIとTF-IDFでキーワード抽出]]
  
  
(感想・要望・情報提供) 
.gz · 最終更新: 2022/04/29 14:48 by admin

(広告募集)