===== コーパス =====
=== コーパスとは ===
  * 2021-03-12 | [[https://www.sbbit.jp/article/cont1/53372|「コーパス」とは？自然言語を扱うAIのカラクリ]]

=== 日本語コーパス・言語データ ===
  * 2022-11-24 | [[https://www.nii.ac.jp/news/release/2022/1124.html|「地球の歩き方」の利用者投稿旅行記データを学術研究用に無償で提供開始]]
  * 2022-11-07 | [[https://github.com/shigashiyama/jcms|A Japanese Corpus of Many Specialized Domains (JCMS)]]
  * 2022-07-02 | [[https://www.opensourceagenda.com/projects/mama-katu-dm-corpus|ママ活DMコーパス]] -- ママ活の勧誘DMを集めてコーパスにしたものです
  * 2022-07-01 | [[https://www.itmedia.co.jp/news/articles/2207/01/news129.html|スマートニュース、国会議案データベースを無償公開　過去20年分をGitHubで]]
  * [[http://nlp.ist.i.kyoto-u.ac.jp/?KWDLC|京都大学ウェブリード文書コーパス]]
    * 2019-12-19 | [[https://qiita.com/mhangyo/items/0fdffb173747d2e2c80e|KWDLC(京都大学ウェブ文書リードコーパス)を知って、意味関係解析に取り組もう]]
  * [[https://clrd.ninjal.ac.jp/bccwj/|現代日本語書き言葉均衡コーパス(BCCWJ)]]
    * 約1億430万語＝[[https://hayashibe.jp/tr/corpus/bccwj/|約600万文]]
  * [[データ:wikipedia]], [[データ:wiki-40b]]
  * [[http://www.s-yata.jp/corpus/nwc2010/|日本語ウェブコーパス 2010]] -- HTML3.25TB, テキスト396GB, 単語n-gram 75.2GBなど
  * [[http://data.statmt.org/cc-100/|CC-100: Monolingual Datasets from Web Crawl Data]] -- 日本語15GB
  * [[https://oscar-corpus.com/|OSCAR (Open Super-large Crawled ALMAnaCH coRpus)]] -- huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture
  * [[データ:青空文庫]]
  * [[データ:livedoorニュースコーパス]]
  * [[https://www2.ninjal.ac.jp/cojads/index.html|日本語諸方言コーパス (COJADS)]]
    * 2020-08-17 | [[https://qiita.com/a_eau_/items/09f648ede77fd22e7585|日本語諸方言コーパスをDB化して遊ぶ (3) PHP Laravel で操作する]] -- Qiita
  * [[https://mingkeedata.stores.jp/?category_id=5eabe17c55fa036cd17b69f9|NMTデータストア]]
  * [[https://syosetu.com/|小説家になろう]] -- コーパスではありませんが100万件近い小説があるので利用できるかも

==== コーパスツール ====
  * [[http://corpora.lancs.ac.uk/lancsbox/|#LancsBox: Lancaster University corpus toolbox]]

==== その他 ====
  * [[https://github.com/tsuruoka-lab/BSD#the-business-scene-dialogue-corpus|The Business Scene Dialogue corpus]] - GitHub
    * ビジネス対話シナリオ（日英）（20,000文程度）文脈を踏まえた口語表現による自然な対話文、シーンは対面会話・雑談・電話・ミーティング・研修・プレゼンの６つを想定しております。
  * [[https://github.com/fchollet/ARC#the-abstraction-and-reasoning-corpus-arc|The Abstraction and Reasoning Corpus (ARC)]] - GitHub
  * [[https://aylien.com/resources/datasets/nasdaq-100-dataset-download?utm_campaign=Dataset%20Downloads%20-%20All&utm_content=131527494&utm_medium=social&utm_source=twitter&hss_channel=tw-186325183|NASDAQ 100 - Free News Intelligence Dataset Download]]
  * 2020-10-10 | [[https://datasets.quantumstat.com/|The Big Bad NLP Database]]