===== TF-IDF ===== === TF-IDFとは === * term frequency - inverse document frequency * 文書中に含まれる単語の[[:重要度]]を評価するアルゴリズム。文書のベクトル化など様々な用途に使われる。 * 単語の出現頻度(term frequency, TF)と逆文書頻度(Inverse document frequency, IDF)の積で定義。 * 古典的でよく使われるが、そんなに精度がいい訳ではない。これだけ簡単な計算で得られる近似としてはすばらしい。 * 例えば、[[重要度:okapi_bm25]]などは TF-IDFよりも精度がよいと言われている。 * 1972年に[[https://en.wikipedia.org/wiki/Karen_Sp%C3%A4rck_Jones|Karen Spärck Jones]]がIDFの概念を発表したことがはじまり。 === 意味付け === * 2022-05-19 | [[https://zenn.dev/yuya_sato/articles/f9a58db4e05520|TF-IDFの理論的な意味付けについて]] * 2005-11-01 | [[http://chasen.org/~taku/blog/archives/2005/11/_tfidf_1.html|キーワード抽出: tf-idf の意味づけ]] === 派生 === * TF-IDFには様々な派生(改良)がある。例えば、[[https://en.wikipedia.org/wiki/Tf%E2%80%93idf#Derivatives|Wikipedia]]を参照。 === 記事 === * 2022-09-17 | [[https://zenn.dev/robes/articles/241f6c3fac1486|【自然言語処理】【Python】TF-IDFを使って文書の特徴をつかもう]] * 2021-12-24 | [[https://qiita.com/YYGGJJ_Q/items/a95adc2ee6db20489d7b|ニュースから漢字だけ抜き出してTF-IDFで類似性解析]] * 2021-07-31 | [[https://qiita.com/kanta_yamaoka/items/7ab419e0eb59eac73311|単語の重要度の指標tf-idfの数式の感覚的な説明]] * 2021-06-01 | [[https://www.du-soleil.com/entry/aosora-tf-idf|青空文庫の形態素解析データから tf-idf を計量して文芸作品連想クイズを生成する]] * 2021-03-14 | [[https://dev.classmethod.jp/articles/python-tfidf-blog/|【Python】TF-IDF を使って自分のブログの特徴を取得してみた]] * 2021-02-24 | [[https://scarlet09libra.hatenablog.com/entry/2021/02/24/210856|【自然言語処理】TF-IDFの概要とPythonでの実装方法について]] * 2020-12-11 | [[https://stop-the-world.hatenablog.com/entry/cs276-information-retrieval-11|Information Retrieval and Web Search まとめ(11): スコア計算:TF-IDFとベクトル空間モデル]] * 2020-12-04 | (動画) [[https://www.youtube.com/watch?v=nsEbfO3U2pY|【自然言語処理】tf-idf 単語の情報量を加味した類似度分析【Elasticsearch への道①】#084 #VRアカデミア]] * 2020-11-28 | [[https://qiita.com//y_itoh/items/1e91ec59dac403d8e8e6|3. Pythonによる自然言語処理 3-2. TF-IDF分析[小説にみる特徴語の検出]]] * 2020-11-22 | [[https://qiita.com/y_itoh/items/69234a384221e123a463|3. Pythonによる自然言語処理 3-1. 重要語抽出ツール TF-IDF分析[原定義]]] * 2020-09-19 | [[https://qiita.com/aramesaya/items/3976b6343fe0c7aeaf49|続・tf-idf関数を使わずに重みづけ]] * 2020-07-26 | [[https://whiletruedotcom.wordpress.com/2020/07/26/%E6%96%87%E7%AB%A0%E8%A7%A3%E6%9E%90%E3%81%AA%E3%81%A9%E3%81%A7%E4%BD%BF%E3%81%86tfidf%E3%82%92%E8%A8%88%E7%AE%97%E3%81%99%E3%82%8B%E3%83%A9%E3%82%A4%E3%83%96%E3%83%A9%E3%83%AA%E3%82%92%E4%BD%9C/|文章解析などで使うTFIDFを計算するライブラリを作ってみた]] * 2020-07-13 | [[https://note.com/shimakaze_soft/n/n6e92d1a4851b|自然言語処理の基礎であるTF-IDFの計算方法とPythonによる実装方法を解説]] * 2019-04-09 | [[https://note.com/shimakaze_soft/n/nf02b0f8ab0f6|自然言語処理の基礎である形態素解析からbowによるベクトル化、TF-IDFによる重み付けまで解説]] - [[形態素解析:mecab]], [[言語モデル:bag_of_words]] * 2018-05-11 | [[https://premium.aidemy.net/magazine/entry/2018/05/11/162024|Pythonで国会議事録から、話題の政治ワードを抽出してみた]] - [[データ:スクレイピング]], [[形態素解析:mecab]], [[:matplotlib]], [[環境:excel]] * 2005-10-12 | [[https://chalow.net/2005-10-12-1.html|形態素解析と検索APIとTF-IDFでキーワード抽出]]