ユーザ用ツール

サイト用ツール


形態素解析:単語分割

差分

このページの2つのバージョン間の差分を表示します。

この比較画面へのリンク

両方とも前のリビジョン前のリビジョン
次のリビジョン
前のリビジョン
形態素解析:単語分割 [2021/09/20 09:35] admin形態素解析:単語分割 [2023/06/15 16:57] (現在) admin
行 1: 行 1:
 ===== 単語分割 ===== ===== 単語分割 =====
-==== 単語分割とは ====+=== 単語分割とは ===
   * [[形態素解析:]]の部分処理で、テキストを入力して単語に分割して出力する処理。日本語の単語分割は[[分かち書き]]とも呼ぶ。単語分割器は英語で tokenizer。   * [[形態素解析:]]の部分処理で、テキストを入力して単語に分割して出力する処理。日本語の単語分割は[[分かち書き]]とも呼ぶ。単語分割器は英語で tokenizer。
   * いわゆる[[サブワード]]分割なども単語分割に含める。   * いわゆる[[サブワード]]分割なども単語分割に含める。
  
-==== 記事 ====+=== Vaporetto === 
 +  * 2021-09-28 | [[https://tech.legalforce.co.jp/entry/2021/09/28/180844|速度の高みを目指す:高速な単語分割器 Vaporetto の技術解説]] 
 + 
 +=== 記事 === 
 +  * 2023-06-14 | [[https://gigazine.net/news/20230614-llama-tokenizer/|Metaの大規模言語モデル「LLaMa」に入力した文章がどのようなトークンとして認識しているかを確認できる「LLaMA-Tokenizer」]] 
 +  * 2023-04-23 | [[https://nikkie-ftnext.hatenablog.com/entry/how-chatgpt-tokenize-japanese-text-tackling-with-tiktoken|ChatGPTに日本語テキストを入力するとき、日本語テキストがどのように分割されてトークンに変換されるかをtiktokenでのぞく]]
   * 2021-09-16 | [[https://towardsdatascience.com/how-to-build-a-wordpiece-tokenizer-for-bert-f505d97dddbb|How to Build a WordPiece Tokenizer For BERT]]   * 2021-09-16 | [[https://towardsdatascience.com/how-to-build-a-wordpiece-tokenizer-for-bert-f505d97dddbb|How to Build a WordPiece Tokenizer For BERT]]
   * 2020-08-06 | [[https://github.com/himkt/awesome-bert-japanese#awesome-bert-japanese|awesome-bert-japanese]]    * 2020-08-06 | [[https://github.com/himkt/awesome-bert-japanese#awesome-bert-japanese|awesome-bert-japanese]] 
(感想・要望・情報提供) 
.gz · 最終更新: 2021/09/20 09:35 by admin

(広告募集)