ユーザ用ツール

サイト用ツール


形態素解析:単語分割

差分

このページの2つのバージョン間の差分を表示します。

この比較画面へのリンク

両方とも前のリビジョン前のリビジョン
次のリビジョン
前のリビジョン
形態素解析:単語分割 [2021/02/07 15:24] admin形態素解析:単語分割 [2023/06/15 16:57] (現在) admin
行 1: 行 1:
 ===== 単語分割 ===== ===== 単語分割 =====
-==== 単語分割とは ==== +=== 単語分割とは === 
-  * [[形態素解析]]の部分処理で、テキストを入力して単語に分割して出力する処理。日本語の単語分割は[[分かち書き]]とも呼ぶ。+  * [[形態素解析:]]の部分処理で、テキストを入力して単語に分割して出力する処理。日本語の単語分割は[[分かち書き]]とも呼ぶ。単語分割器は英語で tokenizer
   * いわゆる[[サブワード]]分割なども単語分割に含める。   * いわゆる[[サブワード]]分割なども単語分割に含める。
  
-==== 記事 ====+=== Vaporetto === 
 +  * 2021-09-28 | [[https://tech.legalforce.co.jp/entry/2021/09/28/180844|速度の高みを目指す:高速な単語分割器 Vaporetto の技術解説]] 
 + 
 +=== 記事 === 
 +  * 2023-06-14 | [[https://gigazine.net/news/20230614-llama-tokenizer/|Metaの大規模言語モデル「LLaMa」に入力した文章がどのようなトークンとして認識しているかを確認できる「LLaMA-Tokenizer」]] 
 +  * 2023-04-23 | [[https://nikkie-ftnext.hatenablog.com/entry/how-chatgpt-tokenize-japanese-text-tackling-with-tiktoken|ChatGPTに日本語テキストを入力するとき、日本語テキストがどのように分割されてトークンに変換されるかをtiktokenでのぞく]] 
 +  * 2021-09-16 | [[https://towardsdatascience.com/how-to-build-a-wordpiece-tokenizer-for-bert-f505d97dddbb|How to Build a WordPiece Tokenizer For BERT]]
   * 2020-08-06 | [[https://github.com/himkt/awesome-bert-japanese#awesome-bert-japanese|awesome-bert-japanese]]    * 2020-08-06 | [[https://github.com/himkt/awesome-bert-japanese#awesome-bert-japanese|awesome-bert-japanese]] 
     * 公開されている学習済み BERT モデルについて, 分かち書き・サブワード分割・語彙構築アルゴリズムそれぞれどのアルゴリズムが採用されているかを表にまとめています.     * 公開されている学習済み BERT モデルについて, 分かち書き・サブワード分割・語彙構築アルゴリズムそれぞれどのアルゴリズムが採用されているかを表にまとめています.
-  * [[https://colab.research.google.com/drive/1Gzkcmg25Z82DBedzA55DJTnMxyA8b5-o?usp=sharing|日本語 BERT トークナイズ事情.ipynb]] - [[:bert]]+  * [[https://colab.research.google.com/drive/1Gzkcmg25Z82DBedzA55DJTnMxyA8b5-o?usp=sharing|日本語 BERT トークナイズ事情.ipynb]] - [[言語モデル:bert]]
  
(感想・要望・情報提供) 
.gz · 最終更新: 2021/02/07 15:24 by admin

(広告募集)