<?xml version="1.0" encoding="UTF-8"?>
<!-- generator="FeedCreator 1.8" -->
<?xml-stylesheet href="https://www.jnlp.org/nlp/lib/exe/css.php?s=feed" type="text/css"?>
<rdf:RDF
    xmlns="http://purl.org/rss/1.0/"
    xmlns:rdf="http://www.w3.org/1999/02/22-rdf-syntax-ns#"
    xmlns:slash="http://purl.org/rss/1.0/modules/slash/"
    xmlns:dc="http://purl.org/dc/elements/1.1/">
    <channel rdf:about="https://www.jnlp.org/nlp/feed.php">
        <title>自然言語処理の餅屋 - データ</title>
        <description>https://www.jnlp.org/</description>
        <link>https://www.jnlp.org/nlp/</link>
        <image rdf:resource="https://www.jnlp.org/nlp/_media/logo.png" />
       <dc:date>2026-05-03T10:17:08+00:00</dc:date>
        <items>
            <rdf:Seq>
                <rdf:li rdf:resource="https://www.jnlp.org/nlp/%E3%83%87%E3%83%BC%E3%82%BF/livedoor%E3%83%8B%E3%83%A5%E3%83%BC%E3%82%B9%E3%82%B3%E3%83%BC%E3%83%91%E3%82%B9?rev=1624237174&amp;do=diff"/>
                <rdf:li rdf:resource="https://www.jnlp.org/nlp/%E3%83%87%E3%83%BC%E3%82%BF/top?rev=1694505595&amp;do=diff"/>
                <rdf:li rdf:resource="https://www.jnlp.org/nlp/%E3%83%87%E3%83%BC%E3%82%BF/twitter?rev=1670563252&amp;do=diff"/>
                <rdf:li rdf:resource="https://www.jnlp.org/nlp/%E3%83%87%E3%83%BC%E3%82%BF/wiki-40b?rev=1638846444&amp;do=diff"/>
                <rdf:li rdf:resource="https://www.jnlp.org/nlp/%E3%83%87%E3%83%BC%E3%82%BF/wikipedia?rev=1656727202&amp;do=diff"/>
                <rdf:li rdf:resource="https://www.jnlp.org/nlp/%E3%83%87%E3%83%BC%E3%82%BF/%E3%82%A2%E3%83%8E%E3%83%86%E3%83%BC%E3%82%B7%E3%83%A7%E3%83%B3?rev=1681106630&amp;do=diff"/>
                <rdf:li rdf:resource="https://www.jnlp.org/nlp/%E3%83%87%E3%83%BC%E3%82%BF/%E3%82%B3%E3%83%BC%E3%83%91%E3%82%B9?rev=1670565493&amp;do=diff"/>
                <rdf:li rdf:resource="https://www.jnlp.org/nlp/%E3%83%87%E3%83%BC%E3%82%BF/%E3%82%B9%E3%82%AF%E3%83%AC%E3%82%A4%E3%83%94%E3%83%B3%E3%82%B0?rev=1653187230&amp;do=diff"/>
                <rdf:li rdf:resource="https://www.jnlp.org/nlp/%E3%83%87%E3%83%BC%E3%82%BF/%E3%83%87%E3%83%BC%E3%82%BF%E6%8B%A1%E5%BC%B5?rev=1681106731&amp;do=diff"/>
                <rdf:li rdf:resource="https://www.jnlp.org/nlp/%E3%83%87%E3%83%BC%E3%82%BF/%E3%83%93%E3%83%83%E3%82%B0%E3%83%87%E3%83%BC%E3%82%BF?rev=1624164201&amp;do=diff"/>
                <rdf:li rdf:resource="https://www.jnlp.org/nlp/%E3%83%87%E3%83%BC%E3%82%BF/%E5%89%8D%E5%87%A6%E7%90%86?rev=1686555815&amp;do=diff"/>
                <rdf:li rdf:resource="https://www.jnlp.org/nlp/%E3%83%87%E3%83%BC%E3%82%BF/%E6%96%87%E5%AD%97%E3%82%B3%E3%83%BC%E3%83%89?rev=1624164235&amp;do=diff"/>
                <rdf:li rdf:resource="https://www.jnlp.org/nlp/%E3%83%87%E3%83%BC%E3%82%BF/%E9%9D%92%E7%A9%BA%E6%96%87%E5%BA%AB?rev=1654340403&amp;do=diff"/>
            </rdf:Seq>
        </items>
    </channel>
    <image rdf:about="https://www.jnlp.org/nlp/_media/logo.png">
        <title>自然言語処理の餅屋</title>
        <link>https://www.jnlp.org/nlp/</link>
        <url>https://www.jnlp.org/nlp/_media/logo.png</url>
    </image>
    <item rdf:about="https://www.jnlp.org/nlp/%E3%83%87%E3%83%BC%E3%82%BF/livedoor%E3%83%8B%E3%83%A5%E3%83%BC%E3%82%B9%E3%82%B3%E3%83%BC%E3%83%91%E3%82%B9?rev=1624237174&amp;do=diff">
        <dc:format>text/html</dc:format>
        <dc:date>2021-06-21T00:59:34+00:00</dc:date>
        <dc:creator>Anonymous (anonymous@undisclosed.example.com)</dc:creator>
        <title>livedoorニュースコーパス</title>
        <link>https://www.jnlp.org/nlp/%E3%83%87%E3%83%BC%E3%82%BF/livedoor%E3%83%8B%E3%83%A5%E3%83%BC%E3%82%B9%E3%82%B3%E3%83%BC%E3%83%91%E3%82%B9?rev=1624237174&amp;do=diff</link>
        <description>livedoorニュースコーパス

livedoorニュースコーパスとは

	*  NHN Japan株式会社が運営する「livedoor ニュース」のうち、下記のクリエイティブ・コモンズライセンスが適用されるニュース記事を収集し、可能な限りHTMLタグを取り除いて作成したコーパス。
		*  トピックニュース
		*  Sports Watch
		*  ITライフハック
		*</description>
    </item>
    <item rdf:about="https://www.jnlp.org/nlp/%E3%83%87%E3%83%BC%E3%82%BF/top?rev=1694505595&amp;do=diff">
        <dc:format>text/html</dc:format>
        <dc:date>2023-09-12T07:59:55+00:00</dc:date>
        <dc:creator>Anonymous (anonymous@undisclosed.example.com)</dc:creator>
        <title>データ</title>
        <link>https://www.jnlp.org/nlp/%E3%83%87%E3%83%BC%E3%82%BF/top?rev=1694505595&amp;do=diff</link>
        <description>データ

言語資源とは

言語資源は、自然言語処理を実現するために必要なデータ、モデル、ツールなどの総称です。

カタログ

	*  2022-06-16 | awesome-japanese-nlp-resources -- 日本語言語資源の網羅的なリスト
	*  言語資源カタログ （言語資源協会）</description>
    </item>
    <item rdf:about="https://www.jnlp.org/nlp/%E3%83%87%E3%83%BC%E3%82%BF/twitter?rev=1670563252&amp;do=diff">
        <dc:format>text/html</dc:format>
        <dc:date>2022-12-09T05:20:52+00:00</dc:date>
        <dc:creator>Anonymous (anonymous@undisclosed.example.com)</dc:creator>
        <title>Twitter</title>
        <link>https://www.jnlp.org/nlp/%E3%83%87%E3%83%BC%E3%82%BF/twitter?rev=1670563252&amp;do=diff</link>
        <description>Twitter

データセット

	*  2022-12-09 | Twitter日本語評判分析データセット
	*  2021-04-29 | XLM-T - A Multilingual Language Model Toolkit for Twitter
	*  2020-11-17 | 【18個掲載】Twitter分析に使えるデータセットまとめ

記事

	*  2022-07-30 | twarc - ツイートを取得して形態素解析してみた
	*  2021-09-05 | Twitterの特定キーワードを含むツイートを形態素解析し、頻出単語をグラフ化する。
	*  2021-07-16 | R/rtweetとか諸々を使って、つぶやきのテキスト解析 (形態素分析 + 感情分析) をやってみた件
	*  2020-12-07 | 自然言語処理でツイートがバズるかをちゃんと予測する
	*  2020-06-26 | 【準備編】推しのTwitterをテキストマイニングしてみた - テキストマイニング
	*  2020-06-26 | NEC、Twitter上の災害に関する情報をリアルタ…</description>
    </item>
    <item rdf:about="https://www.jnlp.org/nlp/%E3%83%87%E3%83%BC%E3%82%BF/wiki-40b?rev=1638846444&amp;do=diff">
        <dc:format>text/html</dc:format>
        <dc:date>2021-12-07T03:07:24+00:00</dc:date>
        <dc:creator>Anonymous (anonymous@undisclosed.example.com)</dc:creator>
        <title>Wiki-40B</title>
        <link>https://www.jnlp.org/nlp/%E3%83%87%E3%83%BC%E3%82%BF/wiki-40b?rev=1638846444&amp;do=diff</link>
        <description>Wiki-40B
wiki40b&lt;https://www.tensorflow.org/datasets/catalog/wiki40b&gt;
Wiki-40Bとは

Wikipediaのクリーンアップテキスト(日本語を含む40言語) 。

記事

	*  2020-09-26 | Wikipediaの前処理はもうやめて「Wiki-40B」を使う
		*  3.16GB (1GB=5.6億文字とすれば 17.7億文字)</description>
    </item>
    <item rdf:about="https://www.jnlp.org/nlp/%E3%83%87%E3%83%BC%E3%82%BF/wikipedia?rev=1656727202&amp;do=diff">
        <dc:format>text/html</dc:format>
        <dc:date>2022-07-02T02:00:02+00:00</dc:date>
        <dc:creator>Anonymous (anonymous@undisclosed.example.com)</dc:creator>
        <title>Wikipedia</title>
        <link>https://www.jnlp.org/nlp/%E3%83%87%E3%83%BC%E3%82%BF/wikipedia?rev=1656727202&amp;do=diff</link>
        <description>Wikipedia
Wikipedia（ダウンロード）ja.wikipedia.org/wiki/Wikipedia:データベースダウンロードPreprocessed files generated from Japanese Wikipedia as of 2022-04-04&lt;https://github.com/singletongue/wikipedia-utils/releases/tag/2022-04-04&gt;
記事

	*  2021-06-17 | Turing Bot（１）Wikipediaページからのトークン抽出
	*  2020-03-23 | 【自然言語処理のためのWikipediaデータの扱い方(#1) 】Wikipedia記事DBの作成

関連ページ

	*  コーパス
	*  Wiki-40B…</description>
    </item>
    <item rdf:about="https://www.jnlp.org/nlp/%E3%83%87%E3%83%BC%E3%82%BF/%E3%82%A2%E3%83%8E%E3%83%86%E3%83%BC%E3%82%B7%E3%83%A7%E3%83%B3?rev=1681106630&amp;do=diff">
        <dc:format>text/html</dc:format>
        <dc:date>2023-04-10T06:03:50+00:00</dc:date>
        <dc:creator>Anonymous (anonymous@undisclosed.example.com)</dc:creator>
        <title>アノテーション</title>
        <link>https://www.jnlp.org/nlp/%E3%83%87%E3%83%BC%E3%82%BF/%E3%82%A2%E3%83%8E%E3%83%86%E3%83%BC%E3%82%B7%E3%83%A7%E3%83%B3?rev=1681106630&amp;do=diff</link>
        <description>アノテーション

コーパス作成などのために手作業で正解データを付与する作業のこと。

アノテーションツール

単一言語の要素（主に単語）に対して手作業で固有表現などを付与するツール。
 ツール名</description>
    </item>
    <item rdf:about="https://www.jnlp.org/nlp/%E3%83%87%E3%83%BC%E3%82%BF/%E3%82%B3%E3%83%BC%E3%83%91%E3%82%B9?rev=1670565493&amp;do=diff">
        <dc:format>text/html</dc:format>
        <dc:date>2022-12-09T05:58:13+00:00</dc:date>
        <dc:creator>Anonymous (anonymous@undisclosed.example.com)</dc:creator>
        <title>コーパス</title>
        <link>https://www.jnlp.org/nlp/%E3%83%87%E3%83%BC%E3%82%BF/%E3%82%B3%E3%83%BC%E3%83%91%E3%82%B9?rev=1670565493&amp;do=diff</link>
        <description>コーパス

コーパスとは

	*  2021-03-12 | 「コーパス」とは？自然言語を扱うAIのカラクリ

日本語コーパス・言語データ

	*  2022-11-24 | 「地球の歩き方」の利用者投稿旅行記データを学術研究用に無償で提供開始
	*  2022-11-07 | A Japanese Corpus of Many Specialized Domains (JCMS)
	*  2022-07-02 | ママ活DMコーパス -- ママ活の勧誘DMを集めてコーパスにしたものです
	*  2022-07-01 | スマートニュース、国会議案データベースを無償公開　過去20年分をGitHubで
	*  京都大学ウェブリード文書コーパス
		*  2019-12-19 |…</description>
    </item>
    <item rdf:about="https://www.jnlp.org/nlp/%E3%83%87%E3%83%BC%E3%82%BF/%E3%82%B9%E3%82%AF%E3%83%AC%E3%82%A4%E3%83%94%E3%83%B3%E3%82%B0?rev=1653187230&amp;do=diff">
        <dc:format>text/html</dc:format>
        <dc:date>2022-05-22T02:40:30+00:00</dc:date>
        <dc:creator>Anonymous (anonymous@undisclosed.example.com)</dc:creator>
        <title>スクレイピング</title>
        <link>https://www.jnlp.org/nlp/%E3%83%87%E3%83%BC%E3%82%BF/%E3%82%B9%E3%82%AF%E3%83%AC%E3%82%A4%E3%83%94%E3%83%B3%E3%82%B0?rev=1653187230&amp;do=diff</link>
        <description>スクレイピング

	*  2022-04-29 | pythonで気軽にwebスクレイピング　→　形態素解析
	*  2021-07-19 | 自然言語処理入門　Vol.４ Webスクレイピング
	*  2020-10-24 | (動画) テキストマイニング用にアマゾンのレビューを取り出す方法ーData Miner Scraper - テキストマイニング, 肯否分析, データ
	*  2020-06-24 | テキストマイニングのサンプルデータを自力で準備する - ヤフー, 青空文庫 - Qiita
	*  2017-04-24 | (動画) foundit #6_02　Python による「スクレイピング &amp; 自然言語処理」入門（講師：戸嶋龍哉 氏）

関連ページ

	*  データ
	*  コーパス
	*  PDF…</description>
    </item>
    <item rdf:about="https://www.jnlp.org/nlp/%E3%83%87%E3%83%BC%E3%82%BF/%E3%83%87%E3%83%BC%E3%82%BF%E6%8B%A1%E5%BC%B5?rev=1681106731&amp;do=diff">
        <dc:format>text/html</dc:format>
        <dc:date>2023-04-10T06:05:31+00:00</dc:date>
        <dc:creator>Anonymous (anonymous@undisclosed.example.com)</dc:creator>
        <title>データ拡張</title>
        <link>https://www.jnlp.org/nlp/%E3%83%87%E3%83%BC%E3%82%BF/%E3%83%87%E3%83%BC%E3%82%BF%E6%8B%A1%E5%BC%B5?rev=1681106731&amp;do=diff</link>
        <description>データ拡張

ツール

	*  2022-07-07 | nlpaug -- This python library helps you with augmenting nlp for your machine learning projects. 
	*  2022-02-14 | 日本語自然言語処理のData Augmentationライブラリdaajaを作りました

記事

	*  2023-02-07 | ChatGPTで自然言語処理のData Augmentationやってみた。
	*  2022-09-17 | 自然言語処理におけるデータ拡張手法
	*  2021-11-28 | Data Augmentation in NLP
	*  2021-05-12 | 学習済みTransformerモデルを使ったData Augmentation
	*  2021-01-23 |…</description>
    </item>
    <item rdf:about="https://www.jnlp.org/nlp/%E3%83%87%E3%83%BC%E3%82%BF/%E3%83%93%E3%83%83%E3%82%B0%E3%83%87%E3%83%BC%E3%82%BF?rev=1624164201&amp;do=diff">
        <dc:format>text/html</dc:format>
        <dc:date>2021-06-20T04:43:21+00:00</dc:date>
        <dc:creator>Anonymous (anonymous@undisclosed.example.com)</dc:creator>
        <title>ビッグデータ</title>
        <link>https://www.jnlp.org/nlp/%E3%83%87%E3%83%BC%E3%82%BF/%E3%83%93%E3%83%83%E3%82%B0%E3%83%87%E3%83%BC%E3%82%BF?rev=1624164201&amp;do=diff</link>
        <description>ビッグデータ

	*  2021-05-27 | 自然言語処理とビッグデータの関係とは？</description>
    </item>
    <item rdf:about="https://www.jnlp.org/nlp/%E3%83%87%E3%83%BC%E3%82%BF/%E5%89%8D%E5%87%A6%E7%90%86?rev=1686555815&amp;do=diff">
        <dc:format>text/html</dc:format>
        <dc:date>2023-06-12T07:43:35+00:00</dc:date>
        <dc:creator>Anonymous (anonymous@undisclosed.example.com)</dc:creator>
        <title>前処理</title>
        <link>https://www.jnlp.org/nlp/%E3%83%87%E3%83%BC%E3%82%BF/%E5%89%8D%E5%87%A6%E7%90%86?rev=1686555815&amp;do=diff</link>
        <description>前処理

関連する表記統一やPDFも参照のこと。

	*  2023-06-12 | HTMLでWordファイル送信後、自然言語処理を行えるようにするまで
	*  2023-01-26 | 日本語機械学習開発環境の作成
	*  2022-10-22 | 自然言語処理の前処理手順をPythonコード付きでご紹介
	*  2021-12-19 | pythonで自然言語処理のためのtwitterから取得したテキストの前処理
	*  2021-12-17 | Pythonで青空文庫データを自然言語処理向けにさくっと一括テキスト整形＋前処理
	*  2021-08-24 | Kaggleで書いたコードの備忘録その２～自然言語処理まとめ～（形態素解析、TF-IDF、スタッキング等）
	*  2021-08-18 | 言語データセットには多量の重複文が潜んでいる！
	*  2021-07-28 | Deduplicating Training Data Makes Language Models Better - Google research
	*  2021-07-13 | 自然言語処理の前処…</description>
    </item>
    <item rdf:about="https://www.jnlp.org/nlp/%E3%83%87%E3%83%BC%E3%82%BF/%E6%96%87%E5%AD%97%E3%82%B3%E3%83%BC%E3%83%89?rev=1624164235&amp;do=diff">
        <dc:format>text/html</dc:format>
        <dc:date>2021-06-20T04:43:55+00:00</dc:date>
        <dc:creator>Anonymous (anonymous@undisclosed.example.com)</dc:creator>
        <title>文字コード</title>
        <link>https://www.jnlp.org/nlp/%E3%83%87%E3%83%BC%E3%82%BF/%E6%96%87%E5%AD%97%E3%82%B3%E3%83%BC%E3%83%89?rev=1624164235&amp;do=diff</link>
        <description>文字コード

	*  2021-04-01 | 「ASCIIをUTF-8にして」それが『できない』ことを理解してもらえなかった話</description>
    </item>
    <item rdf:about="https://www.jnlp.org/nlp/%E3%83%87%E3%83%BC%E3%82%BF/%E9%9D%92%E7%A9%BA%E6%96%87%E5%BA%AB?rev=1654340403&amp;do=diff">
        <dc:format>text/html</dc:format>
        <dc:date>2022-06-04T11:00:03+00:00</dc:date>
        <dc:creator>Anonymous (anonymous@undisclosed.example.com)</dc:creator>
        <title>青空文庫</title>
        <link>https://www.jnlp.org/nlp/%E3%83%87%E3%83%BC%E3%82%BF/%E9%9D%92%E7%A9%BA%E6%96%87%E5%BA%AB?rev=1654340403&amp;do=diff</link>
        <description>青空文庫
青空文庫（ダウンロード）&lt;https://github.com/aozorabunko/aozorabunko&gt;
関連ツール

	*  2022-05-25 | 青空文庫から自然言語処理用データをダウンロード　その２
	*  2022-05-07 | 青空文庫から自然言語処理用データをダウンロード
	*  2021-03-04 | aozorabunko_text
		*  青空文庫( &lt;https://www.aozora.gr.jp&gt; )のサーバ内にある青空文庫形式のテキストのみをテキスト形式のまま集めたものです。個別にzipコマンドで展開したりせずにすべてのテキストが読めます。…</description>
    </item>
</rdf:RDF>
