===== 表記統一 ===== 表記統一とは、[[表記ゆれ]](spelling inconsistency)をなくす作業のこと。前処理全般について[[:データ:前処理]]を、Unicode正規化については[[:言語:文字コード]]をご覧ください。 === ツール === ^ ツール名 ^ URL ^ 備考 | | GH表記ゆれ解析 | https://www.jnlp.org/GengoHouse/gh/variants | Webツール、[[企業:言語商会|言語商会]] | | 文章校正と表記ゆれチェックツール | [[https://chrome.google.com/webstore/detail/%E6%96%87%E7%AB%A0%E6%A0%A1%E6%AD%A3%E3%81%A8%E8%A1%A8%E8%A8%98%E3%82%86%E3%82%8C%E3%83%81%E3%82%A7%E3%83%83%E3%82%AF%E3%83%84%E3%83%BC%E3%83%AB/melcjmapbnbppalonglljkadkemjajjf/related|https://chrome.google.com/webstore/detail/...]] | Google Chrome拡張機能 | | 小説推敲補助ソフト「Novel Supporter」| https://crocro.com/com.crocro/pc/soft/novel_supporter/ | 要ダウンロード | | オンライン文章校正支援サービスPRUV | https://pruv.jp/ | 表記ゆれチェックは有料 | | neologdn 0.5.1 | https://pypi.org/project/neologdn/ | 全角半角等の正規化ツール | | textlint | [[校正:textlint]] | (別ページで紹介) | | 言葉のしっぽ(tails-of-words)|https://github.com/srz-zumix/tails-of-words | 表記ゆれの自動検出プログラム | === 言語資源 === * 2021-07-16 | [[https://www2.ninjal.ac.jp/lrc/index.php?%A1%D8%C9%BD%B5%AD%C5%FD%B9%E7%BC%AD%BD%F1%A1%D9|表記統合辞書]] * 2021-05-06 | [[https://github.com/shigashiyama/jlexnorm|JLexNorm]] -- Corpora for Japanese Morphological Analysis and Lexical Normalization === 表記統一リスト === * 2022-11-18 | [[https://developers.prtimes.jp/2022/11/18/change_word_form/|新旧字体の表記ゆれを統一するために互換表を作成した話]] * 2022-10-31 | [[https://www.nistep.go.jp/archives/53185|「大学・公的機関名英語表記ゆれテーブル(Ver. 2022.1)」の公表について]] * 2022-03-12 | [[https://note.com/_naru/n/n9ff42ee7811d|表記ゆれで別の意味を持つ外来語]] * 2020-11-24 | [[https://www2.ninjal.ac.jp/lrc/index.php?%A1%D8%C9%BD%B5%AD%C5%FD%B9%E7%BC%AD%BD%F1%A1%D9|『表記統合辞書』]] -- 国立国語研究所 * 2020-02-28 | [[https://nippon-pr-center.com/column/yogo20200214/|表記統一リスト~社内報担当者が覚えておきたい用語ルール~]] * 2019-10-29 | [[http://editbooks.blog.jp/archives/20543052.html|美しい文章を書くための表記統一「超完全版」]] * 2016-05-16 | [[http://www.billionplan.com/blog/web/hyouki-yure-rule.html|この漢字はひらく?サイトの表記ゆれを防ぐ、知っておきたい文章マナー。]] === データ表記 === * 2021-10-29 | [[https://jp.techcrunch.com/2021/10/29/real-estate-common-id/|表記ゆれの影響受けず物件を特定できる「不動産共通ID」正式版が公開、国土交通省「不動産IDルール検討会」とも連携予定]] -- [[言語:固有表現]]も参照。 * 2020-09-12 | [[https://www.nikkei.com/article/DGXMZO63782200S0A910C2EA1000/|「ー」は数字か記号か 省庁、データ表記統一へ]] * 2020-06-06 | [[https://qiita.com/miya0001/items/598070abcdf0799daebc|日本の住所の正規化に本気で取り組んでみたら大変すぎて鼻血が出た。]] -- Qiita === 記事 === * 2023-04-30 | [[https://qiita.com/akiraokusawa/items/fdece9c97a17e8f7cb9e|AIが解決する表記ゆれ問題:ChatGPTと協力するデータ品質向上のアプローチ]] * 2022-06-28 | [[https://cuebic.hatenablog.com/entry/2022/06/28/090000|MeCabで形態素解析すれば品名の表記が異なっても一向にかまわんッッ]] * 2021-09-06 | [[https://news.mynavi.jp/article/zeropython-82/|形態素解析で表記揺れを吸収してファイル検索しよう]] * 2021-08-27 | [[https://speakerdeck.com/rettar5/angularwocai-yong-sitapurodakutodebiao-ji-yurewopu-mie-sitahanasi|Angularを採用したプロダクトで表記ゆれを撲滅したはなし]] * 2021-05-10 | [[https://www.sekimeme.info/entry/2020/05/10/120853|表記ゆれとは? デメリット・確認ツール・対策方法を紹介!]] * 2021-06-29 | [[https://todo-job.com/notation-fluctuation/|表記ゆれの確認方法・ツール紹介【表記を統一させて読みやすい文章にしよう】]] * 2021-02-19 | [[https://www.m3tech.blog/entry/meaning-structure-search|GiNZAと患者表現辞書を使って患者テキストの表記ゆれを吸収した意味構造検索を試した]] -- [[ライブラリ:GiNZA]], [[応用:医療]] * 2020-11-12 | [[https://qiita.com/shimajiroxyz/items/3922d6f7dc8e4b156692|キーワード検索システムでの表記ゆれ対策6つ【python】]] * 2020-09-17 | [[https://kotobaken.jp/qa/yokuaru/qa-94/|「コンピューター」と「コンピュータ」どちらで書いてもよいのでしょうか]]

Wikipedia表記揺れ頂上決戦

ひたすら羅列された様々なエンパイアステートビルディング
  vs
羅列すら諦めたシークヮーサー pic.twitter.com/qTSlMTAKwp

— すきえんてぃあ@書け (@cicada3301_kig) September 13, 2020