===== 類似度 ===== === 単語の類似性 === * 関連ページ:[[:分散表現:word2vec]], [[:分散表現:glove]] * 2020-10-29 | [[https://qiita.com/ngayope330/items/eeb3d1ee896b745e0b90|自然言語処理2 単語の類似性]] === テキストの類似性 === * 関連ページ:[[:言語モデル:Sentence-BERT]], [[分散表現:doc2vec]], [[分散表現:universal_sentence_encoder]], [[分散表現:word_rotator_s_distance]] * 2023-04-24 | [[https://qiita.com/akeyhero/items/ce371bfed64399027c23|OpenAI の Embeddings API はイケてるのか、定量的に調べてみる]] * 2022-12-21 | [[https://techblog.gmo-ap.jp/2022/12/21/bert_calc_sentence_similarity/|自然言語処理モデル(BERT)で文の意味上の類似度を計算]] * 2022-12-21 | [[https://dev.classmethod.jp/articles/try-cosine-similarity-using-ginza-and-spacy/|「コサイン類似度」で文書がどれだけ似ているかを調べてみた]] * 2022-06-28 | [[https://qiita.com/kobashi-yoshizumi/items/840c9b0d02ffde5011f2|MeCabを利用して2つの文章の類似度を計る(の理屈)]] * 2021-11-29 | [[https://tech.excite.co.jp/entry/2021/11/29/175826|PHPを使って形態素解析と文章の類似度を出してみる]] * 2021-06-29 | (動画) [[https://www.youtube.com/watch?v=ziiF1eFM3_4|3 Vector-based Methods for Similarity Search (TF-IDF, BM25, SBERT)]] * 2021-04-11 | [[https://toukei-lab.com/python-mecab|PythonのMeCabで形態素解析!Tf-idfとCos類似度で文書の類似度を算出してみよう!]] * 2021-01-23 | [[https://analysis-navi.com/?p=688|Pythonで文章の類似度を計算する方法〜TF-IDFとcos類似度〜]] * 2021-01-16 | (動画) [[https://www.youtube.com/watch?v=Jf6k8SktA0U|【自然言語処理入門】形態素解析をしてTf-idfとCos類似度で文書類似度を測る]] === 翻訳評価 === [[機械翻訳]]の自動[[評価]](翻訳結果と参照文の比較)は結局のところ文の類似度を算出しているのと同じことなので、本ページに記載します。 * 2022-10-15 | [[https://qiita.com/suzuki_sh/items/58c9788e03deade9019d|NLTK BLEUのSmoothing Functionはどれくらいスムージングしているのか]] * 2022-08-05 | [[https://www.ibm.com/blogs/think/jp-ja/bleu-nlp-benchmark-anniversary/|多言語自然言語処理研究の基礎を支える、評価尺度BLEU]] * 2021-06-25 | (動画) [[https://www.youtube.com/watch?v=aZJAizFSTWg|【自然言語処理】BLEU - 定義は?どういう意味?何で利用されてるの?【機械翻訳の評価指標】#105 #VRアカデミア]] * 2020-12-30 | [[https://temari.co.jp/blog/2020/12/30/nlp/|BERTScoreで文章を類似度順に並べる]] * 2020-07-14 | [[https://www.nogawanogawa.com/entry/bertscore|BERTScoreで文章の類似性を測定してみた]] * 2020-01-12 | [[https://qiita.com/amtsyh/items/a926b79b90dfabe895e9|テキスト生成の自動評価指標について]] === 距離尺度 === * 2022-07-13 | [[https://qiita.com/sinchir0/items/02697cae7f960356eaba|編集距離(Levenshtein Distance)の計算方法・計算量を考える]] * 2021-06-29 | (動画) [[https://www.youtube.com/watch?v=AY62z7HrghY|3 Traditional Methods for Similarity Search (Jaccard, w-shingling, Levenshtein)]] * 2021-02-01 | [[https://towardsdatascience.com/9-distance-measures-in-data-science-918109d069fa|9 Distance Measures in Data Science]] * 2018-09-11 | [[https://qiita.com/tanuk1647/items/5a591da10e2ea5bedef6|編集距離(レーベンシュタイン距離)を理解し、実装する]] * 2018-05-10 | [[https://mieruca-ai.com/ai/levenshtein_jaro-winkler_distance/|【技術解説】似ている文字列がわかる!レーベンシュタイン距離とジャロ・ウィンクラー距離の計算方法とは]] * 2017-02-15 | [[https://web.archive.org/web/20170215110621/http://www.chokkan.org/survey/LocalitySensitiveHash.pdf|乱択アルゴリズムと自然言語処理:Locality Sensitive Hashing を用いた高速な名詞クラスタリング]] === 関連ページ === * [[:分散表現:]] -- 昨今の類似性は分散表現上で行うことが多い