目次
SentencePiece
SentencePieceとは
記事
SentencePiece
SentencePieceとは
分かち書き
ツール(tokenizer)。
言語依存処理がなく、いわゆる辞書も必要ない。教師なし学習で分割単位(subword)を学習。
逆に言えば人間の感覚ではおかしな単語分割がされることもある。また学習テキストが変われば分割結果が変わる。
テキストの圧縮率をベースに最適化し、辞書規模を圧縮。
2017-04-07 |
Sentencepiece : ニューラル言語処理向けトークナイザ
– 作成者(工藤さん)による解説記事
記事
2023-04-13 |
Sentencepiece の分割を MeCab っぽくする
2021-08-23 |
LSTM (RNN)による文章生成で必要なSentencePieceのインストール
2021-06-08 |
SentencePieceでの日本語分かち書きをTransformersのパイプラインに組み込む
2020-12-09 |
【自然言語処理:SentencePiece 0.1.9】概要
2020-05-14 |
Wikipediaから日本語コーパスを利用してSentencePieceでトークナイズ(分かち書き)
-
分かち書き