===== データ ===== === 言語資源とは === 言語資源は、自然言語処理を実現するために必要なデータ、モデル、ツールなどの総称です。 === カタログ === * 2022-06-16 | [[https://github.com/taishi-i/awesome-japanese-nlp-resources|awesome-japanese-nlp-resources]] -- 日本語言語資源の網羅的なリスト * [[https://www.gsk.or.jp/catalog/|言語資源カタログ]] (言語資源協会) * [[https://www.nii.ac.jp/dsc/idr/index.html|情報学研究データリポジトリ(IDR)]] (国立情報学研究所) * [[http://www.jaist.ac.jp/project/NLP_Portal/doc/LR/lr-cat-j.html|日本の言語資源・ツールのカタログ]] (言語情報処理ポータル) * [[http://nlp.ist.i.kyoto-u.ac.jp/index.php?NLP%E3%83%AA%E3%82%BD%E3%83%BC%E3%82%B9#g63a7f30|自然言語処理のためのリソース]] (黒橋・村脇研究室) * [[https://catalog.ldc.upenn.edu/|LDC Catalog]] (LDC) * [[http://catalog.elra.info/en-us/|ELRA Catalogue of Language Resources]] (ELRA) * 2020-10-05 | [[https://medium.com/towards-artificial-intelligence/600-nlp-datasets-and-glory-4b0080bf5ab|600 NLP Datasets and Glory]] * 2020-08-31 | [[https://lionbridge.ai/ja/datasets/the-best-25-datasets-for-natural-language-processing/|【25個掲載】英語の自然言語処理に使えるデータセットまとめ]] * 2020-08-08 | [[https://medium.com/towards-artificial-intelligence/best-datasets-for-machine-learning-data-science-computer-vision-nlp-ai-c9541058cf4f|Best Public Datasets for Machine Learning and Data Science]] === シソーラス === * [[http://compling.hss.ntu.edu.sg/wnja/|日本語 WordNet]] * 2022-07-15 | [[https://happy-shibusawake.com/wordnet/456/|Pythonで自然言語処理ツールWordnetの辞書を使ってみる]] * [[https://github.com/masayu-a/WLSP|分類語彙表増補改訂版データベース]] === コーパス === * [[データ:コーパス]] === 辞書 === * [[https://github.com/Amphitrite632/Japanese-Nouns|Japanese-Nouns]] -- 日本語の名詞320万種類を集めたJSONファイル === 課題別データセット === 課題特有のデータセットは各ページに記載しています。 * [[言語:固有表現]] * [[テキストマイニング:感情分析]] * [[テキストマイニング:肯否分析]] === データ拡張 === * [[データ拡張]] === 記事 === * 2023-07-07 | [[https://zenn.dev/syoyo/articles/ef8dd798c7c619|LLM 向け日本語データセットの整備メモ]] * 2021-10-11 | [[https://wired.jp/2021/10/11/stanford-proposal-ai-foundations-ignites-debate/|データ中心主義に懸念? 米国で提唱された「AIの基盤」が波紋を呼んでいる]] * 2020-09-09 | [[https://www.silk-s.jp/sw75.html|Yahoo!知恵袋情報取得ソフト Ver.1.0.6 (Windows製品対応)]] - [[環境:windows]] * 2020-06-26 | [[https://www.ai-shift.co.jp/techblog/1188|音声合成/認識を用いたText Data Augmentationの可能性①]] * 2020-06-25 | [[https://www.nikkei.com/article/DGXMZO60733540U0A620C2TJ2000/|AIの「日本語教師」は主婦やおばあちゃん]] * 2020-03-04 | [[https://ainow.ai/2020/03/02/183280/#i-5|【保存版】オープンデータ・データセット100選 -膨大なデータを活用しよう!]] * 2019-10-04 | [[https://www.technologyreview.jp/s/159145/these-companies-claim-to-provide-fair-trade-data-work-do-they/|AI業界の不都合な真実 ラベル付け作業の底辺競争 フェアトレードは実現するか]]