ユーザ用ツール

サイト用ツール


データ:コーパス

差分

このページの2つのバージョン間の差分を表示します。

この比較画面へのリンク

両方とも前のリビジョン前のリビジョン
次のリビジョン
前のリビジョン
データ:コーパス [2022/04/13 19:51] adminデータ:コーパス [2022/12/09 14:58] (現在) admin
行 1: 行 1:
 ===== コーパス ===== ===== コーパス =====
-==== コーパスとは ====+=== コーパスとは ===
   * 2021-03-12 | [[https://www.sbbit.jp/article/cont1/53372|「コーパス」とは?自然言語を扱うAIのカラクリ]]   * 2021-03-12 | [[https://www.sbbit.jp/article/cont1/53372|「コーパス」とは?自然言語を扱うAIのカラクリ]]
  
-==== 日本語コーパス・言語データ ====+=== 日本語コーパス・言語データ === 
 +  * 2022-11-24 | [[https://www.nii.ac.jp/news/release/2022/1124.html|「地球の歩き方」の利用者投稿旅行記データを学術研究用に無償で提供開始]] 
 +  * 2022-11-07 | [[https://github.com/shigashiyama/jcms|A Japanese Corpus of Many Specialized Domains (JCMS)]] 
 +  * 2022-07-02 | [[https://www.opensourceagenda.com/projects/mama-katu-dm-corpus|ママ活DMコーパス]] -- ママ活の勧誘DMを集めてコーパスにしたものです 
 +  * 2022-07-01 | [[https://www.itmedia.co.jp/news/articles/2207/01/news129.html|スマートニュース、国会議案データベースを無償公開 過去20年分をGitHubで]]
   * [[http://nlp.ist.i.kyoto-u.ac.jp/?KWDLC|京都大学ウェブリード文書コーパス]]   * [[http://nlp.ist.i.kyoto-u.ac.jp/?KWDLC|京都大学ウェブリード文書コーパス]]
     * 2019-12-19 | [[https://qiita.com/mhangyo/items/0fdffb173747d2e2c80e|KWDLC(京都大学ウェブ文書リードコーパス)を知って、意味関係解析に取り組もう]]     * 2019-12-19 | [[https://qiita.com/mhangyo/items/0fdffb173747d2e2c80e|KWDLC(京都大学ウェブ文書リードコーパス)を知って、意味関係解析に取り組もう]]
-  * [[https://pj.ninjal.ac.jp/corpus_center/bccwj/|現代日本語書き言葉均衡コーパス(BCCWJ)]]+  * [[https://clrd.ninjal.ac.jp/bccwj/|現代日本語書き言葉均衡コーパス(BCCWJ)]] 
 +    * 約1億430万語=[[https://hayashibe.jp/tr/corpus/bccwj/|約600万文]]
   * [[データ:wikipedia]], [[データ:wiki-40b]]   * [[データ:wikipedia]], [[データ:wiki-40b]]
-  * [[http://www.s-yata.jp/corpus/nwc2010/|日本語ウェブコーパス 2010]] - HTML3.25TB, テキスト396GB, 単語n-gram 75.2GBなど +  * [[http://www.s-yata.jp/corpus/nwc2010/|日本語ウェブコーパス 2010]] -- HTML3.25TB, テキスト396GB, 単語n-gram 75.2GBなど 
-  * [[http://data.statmt.org/cc-100/|CC-100: Monolingual Datasets from Web Crawl Data]] - 日本語15GB +  * [[http://data.statmt.org/cc-100/|CC-100: Monolingual Datasets from Web Crawl Data]] -- 日本語15GB 
-  * [[https://oscar-corpus.com/|OSCAR (Open Super-large Crawled ALMAnaCH coRpus)]] - huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture+  * [[https://oscar-corpus.com/|OSCAR (Open Super-large Crawled ALMAnaCH coRpus)]] -- huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture
   * [[データ:青空文庫]]   * [[データ:青空文庫]]
   * [[データ:livedoorニュースコーパス]]   * [[データ:livedoorニュースコーパス]]
   * [[https://www2.ninjal.ac.jp/cojads/index.html|日本語諸方言コーパス (COJADS)]]   * [[https://www2.ninjal.ac.jp/cojads/index.html|日本語諸方言コーパス (COJADS)]]
-    * 2020-08-17 | [[https://qiita.com/a_eau_/items/09f648ede77fd22e7585|日本語諸方言コーパスをDB化して遊ぶ (3) PHP Laravel で操作する]] - Qiita+    * 2020-08-17 | [[https://qiita.com/a_eau_/items/09f648ede77fd22e7585|日本語諸方言コーパスをDB化して遊ぶ (3) PHP Laravel で操作する]] -- Qiita
   * [[https://mingkeedata.stores.jp/?category_id=5eabe17c55fa036cd17b69f9|NMTデータストア]]   * [[https://mingkeedata.stores.jp/?category_id=5eabe17c55fa036cd17b69f9|NMTデータストア]]
 +  * [[https://syosetu.com/|小説家になろう]] -- コーパスではありませんが100万件近い小説があるので利用できるかも
  
 ==== コーパスツール ==== ==== コーパスツール ====
(感想・要望・情報提供) 
.gz · 最終更新: 2022/04/13 19:51 by admin

(広告募集)