===== 前処理 ===== 関連する[[:校正:表記統一]]や[[環境:pdf]]も参照のこと。 * 2023-06-12 | [[https://qiita.com/emem905/items/9f3717f08b3adfa31182|HTMLでWordファイル送信後、自然言語処理を行えるようにするまで]] * 2023-01-26 | [[https://developers.prtimes.jp/2023/01/26/create_ml_env/|日本語機械学習開発環境の作成]] * 2022-10-22 | [[https://www.matrixflow.net/case-study/75/|自然言語処理の前処理手順をPythonコード付きでご紹介]] * 2021-12-19 | [[https://qiita.com/konishi0125/items/f5a25046dbbb3fd231c8|pythonで自然言語処理のためのtwitterから取得したテキストの前処理]] * 2021-12-17 | [[https://qiita.com/dzbt_dzbt/items/593dbd698a07c12a771c|Pythonで青空文庫データを自然言語処理向けにさくっと一括テキスト整形+前処理]] * 2021-08-24 | [[https://qiita.com/pocokhc/items/0b6b6534ab984bb87ac4|Kaggleで書いたコードの備忘録その2~自然言語処理まとめ~(形態素解析、TF-IDF、スタッキング等)]] * 2021-08-18 | [[https://ai-scholar.tech/articles/natural-language-processing/DeduplicatingData|言語データセットには多量の重複文が潜んでいる!]] * 2021-07-28 | [[https://github.com/google-research/deduplicate-text-datasets|Deduplicating Training Data Makes Language Models Better]] - Google research * 2021-07-13 | [[https://qiita.com/fumifumitaro/items/c613d033ebc94c5e608d|自然言語処理の前処理の話(記号の削除、stopwordsの削除、語形の統一など)]] * 2021-06-28 | [[https://qiita.com/kanataken/items/4298f39e6afb55bd2bd6|huggingfaceでの自然言語処理事始めBERT系モデルの前処理方法]] * 2021-03-20 | [[https://dev.to/amananandrai/14-tasks-for-text-preprocessing-in-nlp-33n|14 tasks for text preprocessing in NLP]] * 2021-03-11 | [[https://note.com/flitto/n/n987fb7a58d85|なぜ自然言語処理において質の高い言語データが重要なのか?]] * 2020-08-31 | [[https://qiita.com/you_gin/items/03b6e5dc02892131cb9b|自然言語処理の前処理とMeCab(形態素解析エンジン)について]] - [[形態素解析:mecab]] - Qiita * 2020-08-21 | [[https://qiita.com/mkakida/items/82bd4942d3a035853f84|自然言語処理におけるデータ前処理の性能検証]] - Qiita * 2020-08-18 | [[https://qiita.com/mkakida/items/eba36f519b08dbda1d82|自然言語処理とそのデータ前処理の概要]] - Qiita * 2019-11-26 | [[https://qiita.com/bee2/items/c4f6f08a347e5d82b955|tf.data.Dataset apiでテキスト (自然言語処理) の前処理をする方法をまとめる]] * 2019-04-04 | [[https://www.dskomei.com/entry/2019/04/04/191506|Pythonを使ってテキストマイニングのための前処理を行う 〜自然言語処理における前処理〜]] * 2019-02-22 | [[https://medium.com/chakki/%E8%87%AA%E7%84%B6%E8%A8%80%E8%AA%9E%E5%87%A6%E7%90%86%E3%81%AB%E3%81%8A%E3%81%91%E3%82%8B-%E5%89%8D%E5%87%A6%E7%90%86%E3%81%AE%E3%83%9D%E3%83%BC%E3%82%BF%E3%83%93%E3%83%AA%E3%83%86%E3%82%A3%E3%82%92%E5%90%91%E4%B8%8A%E3%81%95%E3%81%9B%E3%82%8B-37c58ff9534d|自然言語処理における、前処理のポータビリティを向上させる]] * 2018-08-XX | [[https://www.kdnuggets.com/2018/08/practitioners-guide-processing-understanding-text-2.html|Text Wrangling & Pre-processing: A Practitioner’s Guide to NLP]] * 2018-05-29 | [[https://yukinoi.hatenablog.com/entry/2018/05/29/120000|自然言語処理の前処理・素性いろいろ]] * 2018-04-18 | [[https://github.com/neologd/mecab-ipadic-neologd/wiki/Regexp.ja|解析前に行うことが望ましい文字列の正規化処理]] -- [[:形態素解析:mecab:mecab-ipadic-neologd|mecab-ipadic-NEologd]] * 2018-01-10 | [[https://qiita.com/chamao/items/7edaba62b120a660657e|Python3×日本語:自然言語処理の前処理まとめ]] - Qiita * 2017-08-06 | [[https://boomin.yokohama/archives/634|【ソースコード付き】日本語テキストマイニングを行うために必要な前処理]] * 2017-04-18 | [[https://qiita.com/Hironsan/items/2466fe0f344115aff177|自然言語処理における前処理の種類とその威力]] - Qiita