===== コーパス ===== === コーパスとは === * 2021-03-12 | [[https://www.sbbit.jp/article/cont1/53372|「コーパス」とは?自然言語を扱うAIのカラクリ]] === 日本語コーパス・言語データ === * 2022-11-24 | [[https://www.nii.ac.jp/news/release/2022/1124.html|「地球の歩き方」の利用者投稿旅行記データを学術研究用に無償で提供開始]] * 2022-11-07 | [[https://github.com/shigashiyama/jcms|A Japanese Corpus of Many Specialized Domains (JCMS)]] * 2022-07-02 | [[https://www.opensourceagenda.com/projects/mama-katu-dm-corpus|ママ活DMコーパス]] -- ママ活の勧誘DMを集めてコーパスにしたものです * 2022-07-01 | [[https://www.itmedia.co.jp/news/articles/2207/01/news129.html|スマートニュース、国会議案データベースを無償公開 過去20年分をGitHubで]] * [[http://nlp.ist.i.kyoto-u.ac.jp/?KWDLC|京都大学ウェブリード文書コーパス]] * 2019-12-19 | [[https://qiita.com/mhangyo/items/0fdffb173747d2e2c80e|KWDLC(京都大学ウェブ文書リードコーパス)を知って、意味関係解析に取り組もう]] * [[https://clrd.ninjal.ac.jp/bccwj/|現代日本語書き言葉均衡コーパス(BCCWJ)]] * 約1億430万語=[[https://hayashibe.jp/tr/corpus/bccwj/|約600万文]] * [[データ:wikipedia]], [[データ:wiki-40b]] * [[http://www.s-yata.jp/corpus/nwc2010/|日本語ウェブコーパス 2010]] -- HTML3.25TB, テキスト396GB, 単語n-gram 75.2GBなど * [[http://data.statmt.org/cc-100/|CC-100: Monolingual Datasets from Web Crawl Data]] -- 日本語15GB * [[https://oscar-corpus.com/|OSCAR (Open Super-large Crawled ALMAnaCH coRpus)]] -- huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture * [[データ:青空文庫]] * [[データ:livedoorニュースコーパス]] * [[https://www2.ninjal.ac.jp/cojads/index.html|日本語諸方言コーパス (COJADS)]] * 2020-08-17 | [[https://qiita.com/a_eau_/items/09f648ede77fd22e7585|日本語諸方言コーパスをDB化して遊ぶ (3) PHP Laravel で操作する]] -- Qiita * [[https://mingkeedata.stores.jp/?category_id=5eabe17c55fa036cd17b69f9|NMTデータストア]] * [[https://syosetu.com/|小説家になろう]] -- コーパスではありませんが100万件近い小説があるので利用できるかも ==== コーパスツール ==== * [[http://corpora.lancs.ac.uk/lancsbox/|#LancsBox: Lancaster University corpus toolbox]] ==== その他 ==== * [[https://github.com/tsuruoka-lab/BSD#the-business-scene-dialogue-corpus|The Business Scene Dialogue corpus]] - GitHub * ビジネス対話シナリオ(日英)(20,000文程度)文脈を踏まえた口語表現による自然な対話文、シーンは対面会話・雑談・電話・ミーティング・研修・プレゼンの6つを想定しております。 * [[https://github.com/fchollet/ARC#the-abstraction-and-reasoning-corpus-arc|The Abstraction and Reasoning Corpus (ARC)]] - GitHub * [[https://aylien.com/resources/datasets/nasdaq-100-dataset-download?utm_campaign=Dataset%20Downloads%20-%20All&utm_content=131527494&utm_medium=social&utm_source=twitter&hss_channel=tw-186325183|NASDAQ 100 - Free News Intelligence Dataset Download]] * 2020-10-10 | [[https://datasets.quantumstat.com/|The Big Bad NLP Database]]