===== 形態素解析 ===== === 形態素解析とは === 単語を同定する処理。日本語の場合は[[形態素解析:分かち書き]]されていない言語なので、どの文字からどの文字までが単語なのかを知る必要がある。また、その単語がどのような単語(品詞や読みなど)も知る必要がある。以上まとめると、形態素解析はいくつかの処理に分解できる。 * [[形態素解析:単語分割]] * [[形態素解析:品詞付与]] * [[形態素解析:読み付与]] (省略または無視する場合がほとんど。ただし音声合成のためには重要) 日本語の場合は以上を一つの処理(ツール)で行うためまとめて形態素解析と呼んでいる。英語の場合は[[形態素解析:単語分割]]と[[形態素解析:品詞付与]]は別の処理と見なす。よって、形態素解析を英語で説明するときは morphological analysis でも間違いではないが、分かりやすさという意味では tokenization + part-of-speech tagging と呼ぶことをおすすめします。 形態素解析は、文字通り言えば「形態素」に分解することだが、自然言語処理の「形態素」は日本語学とは異なる意味で使っているので注意(詳しくは長くなるので省略)。先人が語義を誤ってこうなったのかあえてこう呼んでいるのかは不明。 [[形態素解析:仮名漢字変換]]は形態素解析と関係の深い技術。 === 形態素解析器 === 以下では、[[形態素解析:単語分割]]を行う単語分割器(トークナイザ)も含めて紹介する。 * [[形態素解析:MeCab]]/[[形態素解析:Sudachi]]/[[形態素解析:chasen]]/[[形態素解析:juman]]/[[形態素解析:jumanpp|JUMAN++]]/[[形態素解析:kytea]]/[[形態素解析:kuromoji]]/[[形態素解析:janome]]/[[形態素解析:kagome]]/[[形態素解析:suika]]/[[形態素解析:lindera]]/[[形態素解析:taiyaki]]/[[形態素解析:yoin]]/[[形態素解析:igo]]/[[形態素解析:goya]]/[[形態素解析:vibrato]] * (API)[[形態素解析:gooラボ形態素解析api]] * 2021-09-14 | [[https://srad.jp/~yasuoka/journal/649605/|yasuokaの日記: bert-base-japanese-uposとTokenClassificationPipelineでおこなう日本語形態素解析]] * 2015-08-07 | [[https://www.slideshare.net/JSUXDesign/2-51367666|ジャストシステムの形態素解析技術 その2 機械学習編]] === 単語分割器 === * [[形態素解析:kakasi]] * [[形態素解析:tinysegmenter]] * [[形態素解析:sentencepiece]] * [[形態素解析:vaporetto]] * [[形態素解析:bertwordpiecetokenizer]] === 形態素解析辞書 === * [[:形態素解析:辞書|形態素解析辞書]] === 形態素解析関連ツール === * [[形態素解析:konoha|Konoha]] -- 複数の形態素解析器を統一したコードで書くためのラッパー * [[https://github.com/azu/morpheme-match|morpheme-match]] -- 日本語を形態素解析したトークンを元に、文章にマッチするかを判定する === 比較 === * 2022-09-01 | [[https://phoneappli.hatenablog.com/entry/2022/09/01/181223|形態素解析器の違いで分かち書きに違いが出るのか実験してみた]] * 2022-07-02 | [[https://www.nogawanogawa.com/entry/tokenizer|形態素解析器をいろいろ試す]] * 2022-04-18 | [[https://qiita.com/relu/items/689162a922936aa0896a|形態素解析器の比較アプリを作ってみた【NEologd】]] * 2021-02-16 | [[https://qiita.com/gorilla_gorilla/items/8fcb257df384e161df75|spaCy vs. MeCab vs. UDPipe - Rで日本語形態素解析対決!]] * 2020-07-13 | [[http://tdual.hatenablog.com/entry/2020/07/13/162151|形態素解析器比較 Sudachi vs Mecab+Neologd]] * 2020-05-18 | [[https://qiita.com/hi-asano/items/aaf406db875f1c81530e|2019年末版 形態素解析器の比較]] === 言語・環境 === * 2022-12-20 | [[https://github.com/paithiov909/capsuletower|capsuletower]] -- 日本語の形態素解析ができるShinyアプリ * 2022-05-20 | [[https://julialang.jp/2022/05/20/julia-morpher/|Juliaで形態素解析]] * 2021-10-01 | [[https://qiita.com/sho-jp/items/50243956373f21b1e138|Rubyではじめる形態素解析]] * 2021-05-04 | [[https://flyingyt.blogspot.com/2021/05/mecab.html|C#で形態素解析をしてみる]] -- [[環境:C_sharp]] * 2014-12-09 | [[https://www.pahoo.org/e-soul/webtech/php06/php06-42-01.shtm|PHPで形態素解析を行う(gooラボ版)]] * 2014-08-04 | [[http://shirayuca.github.io/blog/2014/08/04/yahoo.html|Googleスプレッドシート上で形態素解析]] === 可視化 === * 2022-11-20 | [[https://qiita.com/mizunoyy/items/d152b8cde4f7997cb9a5|テキストを形態素解析して品詞ごとに色付けする]] === 記事 === * 2023-04-10 | [[https://qiita.com/ryokan/items/167150759eaca504ad57|ChatGPTについて考える (3) 形態素解析はどこへ行った?]] * 2022-10-17 | [[https://speakerdeck.com/mosuka/the-importance-of-morphological-analysis-in-japanese-search-engines|The Importance of Morphological Analysis in Japanese Search Engines]] * 2022-03-25 | [[https://note.com/mierukaengine/n/n8e3e7a05e23e|【テキストマイニング研究室:第1回】 テキストマイニングの基礎技術 “形態素解析” とは?]] * 2021-10-20 | [[https://qiita.com/tkosht/items/74822f3b2ed6e629d841|公開!週末研究ノート03 ー 形態素解析と正答率、実行時間の関係]] * 2021-10-19 | [[https://srad.jp/~yasuoka/journal/650274/|yasuokaの日記: Transformersとbert-base-japanese-char-extendedとUD_Japanese-GSDで作る日本語「長単位」形態素解析器]] * 2021-04-27 | [[https://issunno-koin.hateblo.jp/entry/2021/04/27/104646|計算言語学ー形態素解析]] * 2021-04-09 | (動画) [[https://www.youtube.com/watch?v=nB_NyXA94h0|自然言語処理:形態素解析とは?]] * 2021-04-12 | [[https://leadinge.co.jp/rd/2021/04/12/561/|自然言語処理入門 Vol.1 形態素解析]] * 2021-03-08 | [[https://techlife.cookpad.com/entry/2021/03/08/093000|形態素解析を行うだけのバッチをつくる]] * 2021-03-07 | [[https://qiita.com/tashua314/items/fd0fd2645dc9d886a429|【入門】ファイルを形態素解析して単語の数を数えてみよう!]] * 2020-11-16 | [[https://zenn.dev/megane_otoko/articles/008_morphological_analysis|自然言語処理の形態素解析について調べたまとめ]] * 2020-09-29 | [[https://qiita.com/ngayope330/items/83d9f840a0ce893efe22|自然言語処理1 形態素解析]] * 2020-09-28 | [[https://www.raspiworks.tokyo/2020/09/28/122|形態素解析のための現代国文法入門(001) 格助詞]] * 2020-09-17 | [[http://ailearn.biz/learn/20200917871|自然言語処理のステップ②:「形態素解析」とは?]] * 2020-08-30 | [[http://ailearn.biz/learn/20200830786|自然言語処理のステップ①:「分かち書き」とは?]] - [[形態素解析:分かち書き]] * 2020-08-04 | [[https://business-agent.co.jp/dbe_94.html|形態素解析とテキストマイニング]] * 2020-06-16 | [[https://ai-scholar.tech/articles/natural-language-processing/bpe-dropout|「気まぐれな単語分割(サブワード正則化)」で低頻度語に頑健な機械翻訳を目指すBPE-Dropoutとは]] - AI-SCHOLAR * 2019-07-21 | (動画) [[https://www.youtube.com/watch?v=hOUGCBgFFno|【教えて】形態素解析って何。素人でも分かるように解説。]] * 2019-05-28 | [[https://www.cogent.co.jp/blog/morphological-analysis-natural-language-processing/|形態素解析に代表される自然言語処理の仕組みやツールまとめ]] * 2018-02-27 | [[https://nikkie-ftnext.hatenablog.com/entry/2018/02/27/234950|イベントレポート | 実務で使う自然言語処理をする #サポーターズCoLab]] - [[:重要度]], [[:分類]] * 2017-06-22 | (スライド) [[https://www.slideshare.net/WorksApplications/ss-78025845|形態素解析の話]] - [[企業:ワークスアプリケーションズ]] * 2016-06-21 | [[https://ledge.ai/morpho_analysis_japan/|形態素解析とは | 意味・用途・3種のツール・ライブラリを解説]] * 2011-10-19 | (スライド) [[https://www.slideshare.net/pfi/ss-9805912|形態素解析の過去・現在・未来]] === 形態素解析手法・実装 === * 2021-06-23 | [[https://analytics.leverages.jp/entry/2021/06/23/163806|形態素解析の精度向上を頑張った話]] * 2020-10-21 | [[https://blog.hoxo-m.com/entry/2020/10/21/100000|darts-cloneを使って最長一致法で分かち書きしてみる]] * 2020-07-24 | [[https://po3rin.com/blog/longest-match|Go製ダブル配列パッケージと最長一致法を使った形態素解析の実装]] - [[環境:go]] === 日本語以外の形態素解析 === * 2021-12-06 | [[https://qiita.com/mnmandahalf/items/96a753df086b81dd1014|Pythonで形態素解析して韓国語学習]] * 2021-09-02 | [[https://srad.jp/~yasuoka/journal/649375/|yasuokaの日記: bert-base-thai-uposによるタイ語の形態素解析]] * 2020-08-13 | [[https://github.com/tlwg/swath|SWATH (Smart Word Analysis for THai)]] * 2020-06-22 | [[https://language-and-engineering.hatenablog.jp/entry/20150819/EnglishPosTaggerFreesoftTreeTaggerUsage|Windowsで英語の文章を形態素解析する無料ツール「TreeTagger」の導入手順と使い方 (フリーソフトのPOS Taggerで,英文の単語分解・品詞判別をバッチ処理化)]] - [[環境:windows]], [[形態素解析:treetagger]] * 2020-06-22 | [[https://language-and-engineering.hatenablog.jp/entry/20150207/ChineseTextMorphologicalAnalysisByNlpirIctclas|NLPIR(ICTCLAS)で,中国語の文章を形態素解析・分かち書きするJavaプログラムを作る手順 …Windows日本語環境で動くサンプルコード]] - [[環境:windows]], [[環境:java]] * 2017-06-08 | [[http://okotoba.hatenablog.jp/entry/2017/06/08/013706|アラビア語のルールベース形態素解析ライブラリ]] * 2015-12-24 | [[https://www.klab.com/jp/blog/tech/2015/1048271186.html|ロシア語自然言語処理の世界]]