===== Okapi BM25 ===== ==== Okapi BM25とは ==== * 文書中に含まれる単語の[[:重要度]]を評価するアルゴリズム。 * 最初に実装されたシステムのOkapi情報検索システムにちなんでOkapi BM25と呼ばれる。 * BM25とは[[https://opensourceconnections.com/blog/2015/10/16/bm25-the-next-generation-of-lucene-relevation/|Best Match 25]]の略で、1994年に発表。情報検索システムOkapiで25番目に作られた。 * [[重要度:tf-idf]]は単語数が多い文書に含まれる単語のスコアが高くなる傾向にあるのでOkapi BM25ではそれを解消するような重みが足されている。 * 改良版の BM25+ もある。 ==== リンク ==== * [[https://en.wikipedia.org/wiki/Okapi_BM25|Okapi BM25]] - Wikipedia * [[https://opensourceconnections.com/blog/2015/10/16/bm25-the-next-generation-of-lucene-relevation/|BM25 The Next Generation of Lucene Relevance]] - BM25の分かりやすい解説(英語) ==== 記事 ==== * 2020-12-13 | [[https://stop-the-world.hatenablog.com/entry/cs276-information-retrieval-13|Information Retrieval and Web Search まとめ(13): 確率的情報検索(2) BM25]] * 2020-12-11 | [[https://www.youtube.com/watch?v=_HSOX0oh2ns|【自然言語処理】BM25 - tf-idfの進化系の実践類似度分析【Elasticsearch への道②】#085 #VRアカデミア]] * 2020-04-22 | [[https://dev.classmethod.jp/articles/mrmo-ml-20200422/|Okapi BM25についてざっくりまとめ (理論編)]] * 2018-05-08 | [[https://mieruca-ai.com/ai/tf-idf_okapi-bm25/|【技術解説】単語の重要度を測る?TF-IDFとOkapi BM25の計算方法とは]]