===== SentencePiece ===== ==== SentencePieceとは ==== * [[形態素解析:分かち書き]]ツール(tokenizer)。 * 言語依存処理がなく、いわゆる辞書も必要ない。教師なし学習で分割単位(subword)を学習。 * 逆に言えば人間の感覚ではおかしな単語分割がされることもある。また学習テキストが変われば分割結果が変わる。 * テキストの圧縮率をベースに最適化し、辞書規模を圧縮。 * 2017-04-07 | [[https://qiita.com/taku910/items/7e52f1e58d0ea6e7859c|Sentencepiece : ニューラル言語処理向けトークナイザ]] -- 作成者(工藤さん)による解説記事 ==== 記事 ==== * 2023-04-13 | [[https://qiita.com/taku910/items/fbaeab4684665952d5a9|Sentencepiece の分割を MeCab っぽくする]] * 2021-08-23 | [[https://self-development.info/lstm-rnn%E3%81%AB%E3%82%88%E3%82%8B%E6%96%87%E7%AB%A0%E7%94%9F%E6%88%90%E3%81%A7%E5%BF%85%E8%A6%81%E3%81%AAsentencepiece%E3%81%AE%E3%82%A4%E3%83%B3%E3%82%B9%E3%83%88%E3%83%BC%E3%83%AB/|LSTM (RNN)による文章生成で必要なSentencePieceのインストール]] * 2021-06-08 | [[https://radiology-nlp.hatenablog.com/entry/2021/06/08/013549|SentencePieceでの日本語分かち書きをTransformersのパイプラインに組み込む]] * 2020-12-09 | [[https://techplay.jp/column/1423|【自然言語処理:SentencePiece 0.1.9】概要]] * 2020-05-14 | [[https://applingo.tokyo/article/1252|Wikipediaから日本語コーパスを利用してSentencePieceでトークナイズ(分かち書き)]] - [[形態素解析:分かち書き]]