===== 単語分割 ===== === 単語分割とは === * [[形態素解析:]]の部分処理で、テキストを入力して単語に分割して出力する処理。日本語の単語分割は[[分かち書き]]とも呼ぶ。単語分割器は英語で tokenizer。 * いわゆる[[サブワード]]分割なども単語分割に含める。 === Vaporetto === * 2021-09-28 | [[https://tech.legalforce.co.jp/entry/2021/09/28/180844|速度の高みを目指す:高速な単語分割器 Vaporetto の技術解説]] === 記事 === * 2023-06-14 | [[https://gigazine.net/news/20230614-llama-tokenizer/|Metaの大規模言語モデル「LLaMa」に入力した文章がどのようなトークンとして認識しているかを確認できる「LLaMA-Tokenizer」]] * 2023-04-23 | [[https://nikkie-ftnext.hatenablog.com/entry/how-chatgpt-tokenize-japanese-text-tackling-with-tiktoken|ChatGPTに日本語テキストを入力するとき、日本語テキストがどのように分割されてトークンに変換されるかをtiktokenでのぞく]] * 2021-09-16 | [[https://towardsdatascience.com/how-to-build-a-wordpiece-tokenizer-for-bert-f505d97dddbb|How to Build a WordPiece Tokenizer For BERT]] * 2020-08-06 | [[https://github.com/himkt/awesome-bert-japanese#awesome-bert-japanese|awesome-bert-japanese]] * 公開されている学習済み BERT モデルについて, 分かち書き・サブワード分割・語彙構築アルゴリズムそれぞれどのアルゴリズムが採用されているかを表にまとめています. * [[https://colab.research.google.com/drive/1Gzkcmg25Z82DBedzA55DJTnMxyA8b5-o?usp=sharing|日本語 BERT トークナイズ事情.ipynb]] - [[言語モデル:bert]]