===== 自然言語処理の歴史 ===== 様々な資料から収集した世界と日本の[[:自然言語処理]]の歴史年表をまとめました。 もし間違いがありましたらお詫びすると共に、ご指摘いただければ訂正します。 === 1940年代 === * 1947年3月: ロックフェラー財団の [[https://en.wikipedia.org/wiki/Warren_Weaver|Warren Weaver]] が知人への手紙の中で[[:機械翻訳]]の可能性に言及 * 暗号解読技術を使えば、世界のあらゆる言語の基本的な部分は認識できるのではないかと考えた。 * これが世界の[[:機械翻訳]](及び[[:自然言語処理]])の始まりとされる。1946年が最初とする資料(例えば[[https://dl.acm.org/doi/pdf/10.1145/1460361.1460389|これ]]や、長尾の[[#参考資料|下記著書]])もあるが、[[https://en.wikipedia.org/wiki/W._John_Hutchins|John Hutchins]] は1946年説については証拠がないので1947年とするのが妥当であろうと[[https://aclanthology.org/www.mt-archive.info/jnl/MTR-6-Hutchins.pdf|結論づけている]]。 * 1948年: [[https://ja.wikipedia.org/wiki/%E3%82%AF%E3%83%AD%E3%83%BC%E3%83%89%E3%83%BB%E3%82%B7%E3%83%A3%E3%83%8E%E3%83%B3|Claude Elwood Shannon]] が英語の単語連鎖の近似を計算するために [[:言語モデル:n-gram]] を使用 * Claude Elwood Shannon. [[https://ieeexplore.ieee.org/document/6773024|A mathematical theory of communication]]. Bell System Technical Journal, Vol.27, No.3, pp.379–423. 1948. * [[:言語モデル;n-gram]] の考え方そのものは [[https://ja.wikipedia.org/wiki/%E3%82%A2%E3%83%B3%E3%83%89%E3%83%AC%E3%82%A4%E3%83%BB%E3%83%9E%E3%83%AB%E3%82%B3%E3%83%95|Andrey Andreyevich Markov]] が 1913年に提案(いわゆる[[:生成:マルコフ連鎖]]) * 1949年7月: Weaver が Translation という表題の覚え書き(下記)を執筆し、米国内の主要な研究者に配布される。これをきっかけに世界で初めてワシントン大学、UCLA、MITで[[:機械翻訳]]の研究が始まる。 * Warren Weaver. [[http://gunkelweb.com/coms493/texts/weaver_translation.pdf|Translation]]. 1949. === 1950年代 === * 1952年: [[:機械翻訳]]に関する最初の学術会議 * 1954年: ジョージタウン大学とIBMの共同研究結果が発表 * ロシア語を英語に[[:機械翻訳]]。250単語と6個の構文規則を用いる * 1955年: イギリス、フランス、イタリア、ソ連で[[:機械翻訳]]の研究が開始 * 1957年: 九州大学で[[:機械翻訳]](日英独の相互翻訳)の研究が開始 * システムは [[https://museum.ipsj.or.jp/heritage/KT-1.html|Kyusyu Translator-1 (KT-1)]] と命名され、1960年に完成。 * 1957年頃: 通産省電気試験所で[[:機械翻訳]]の研究が開始 * 1958年: [[https://en.wikipedia.org/wiki/Hans_Peter_Luhn|Hans Peter Luhn]]が単語頻度(Term Frequency; [[:重要度:TF|TF]])によってテキストを[[:自動要約|要約]](重要文抽出)する論文を発表 * "the frequency of word occurrence in an article furnishes a useful measurement of word significance" * Hans Peter Luhn. [[https://courses.ischool.berkeley.edu/i256/f06/papers/luhn58.pdf|The Automatic Creation of Literature Abstracts]], IBM Journal of Research and Development, Vol.2, No.2, pp.159. 1958. * 1959年2月: 電気試験所が作成した日本最初の英日翻訳機「[[https://museum.ipsj.or.jp/computer/dawn/0027.html|やまと]]」が完成 * 翻訳例1:This is the book which is mine. →コレガ ホン(ソレガ ワレノモノ ダ)ダ. * 翻訳例2: The computer does not forget whatever he learned. →computerガ (カレガ マナビ タ モノハナンデモ)ヲ ワスレナイ. === 1960年代 === * 1962年: [[:自然言語処理]]に関する世界初の[[:社会:学会|学会]] Association for Machine Translation and Computational Linguistics (AMTCL)が設立 * 1968年に[[https://www.aclweb.org/portal/|Association for Computational Linguistics(ACL)]]に改称 * 1963年: [[https://aclanthology.org/venues/acl/|Annual Meeting of the Association for Computational Linguistics(ACL)]]が初開催 * 1964年: Mosteller and Wallace がベイズ推定を使って[[:分類|テキスト分類]]を行う * Mosteller, F. and D. L. Wallace. 1964. [[https://amzn.to/3O6EHcm|Inference and Disputed Authorship: The Federalist]]. Springer-Verlag. 1984. 2nd edition: Applied Bayesian and Classical Inference. * 1964年: 九州大学の[[http://ereki-westjapannavi.blogspot.com/2021/09/blog-post_6.html|栗原俊彦]]らが仮名漢字方式に関する特許を出願 * この特許が現在の[[形態素解析:仮名漢字変換]]の最初と言われる。 * 1965年: [[https://aclanthology.org/events/coling-1965/|International Conference on Computational Linguistics(COLING)]]が初開催 * 1965年8月: Automatic Language Processing Advisory Committee (ALPAC) から[[https://ja.wikipedia.org/wiki/ALPAC|機械翻訳に関する報告書]]が提出される * ALPAC. [[https://nap.nationalacademies.org/read/9547/chapter/1|Language and Machines: Computers in Translation and Linguistics]]. National Academies of Sciences. 1966 * 1966年: [[:対話|対話]]システム[[https://ja.wikipedia.org/wiki/ELIZA|ELIZA]] が発表 * 1967年: 沖電気の黒崎悦明らが[[形態素解析:仮名漢字変換]]試作システムを試作 * 1968年: 世界最古の[[:機械翻訳]]会社の一つ[[https://www.systransoft.com/|SYSTRAN]]が創業、商用[[:機械翻訳]]システム SYSTRAN を開発、米国政府に導入 === 1970年代 === * 1972年: [[https://en.wikipedia.org/wiki/Karen_Sp%C3%A4rck_Jones|Karen Spärck Jones]]が逆文書頻度(Inverse Document Frequency; IDF) の考え方を提案 * "The exhaustivity of a document description is the number of terms it contains, and the specificity of a term is the number of documents to which it pertains" * Karen Spärck Jones. [[http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.115.8343&rep=rep1&type=pdf|A Statistical Interpretation of Term Specificity and Its Application in Retrieval]]. Journal of Documentation. Vol.28, No.1, pp.11–21. 1972. * 1973年: Salton and Yang が下記論文で Luhn の TF と Spärck Jones の IDF を組み合わせた [[:重要度:TF-IDF|TF-IDF]] を提唱 * [[https://en.wikipedia.org/wiki/Gerard_Salton|Gerard Salton]] and C.S. Yang. [[https://ecommons.cornell.edu/bitstream/handle/1813/6016/73-173.pdf?sequence=1&isAllowed=y|On the Specification of Term Values in Automatic Indexing]]. Journal of Documentation. Vol.29, No.4. 1973. * ただし初めて TF・IDF(原文表記)と呼んだのは上記論文ではなく Salton et al. [[https://ecommons.cornell.edu/bitstream/handle/1813/6031/73-188.pdf?sequence=1&isAllowed=y|Contribution to the Theory of Indexing]]. Technical Report TR73-188, Cornell University. 1973. が最初。 * 1975年: [[https://en.wikipedia.org/wiki/C._J._van_Rijsbergen|Cornelis Joost van Rijsbergen]] が再現率と適合率を一つにした尺度 F-measure を提案 * van Rijsbergen, C. J. 1975. [[https://amzn.to/39bpKr3|Information Retrieval]]. Butterworths. * 正確に言えば F ではなく 1-F に相当する値である E (effectiveness) を提案。このあたりの議論は[[https://www.cs.odu.edu/~mukka/cs795sum09dm/Lecturenotes/Day3/F-measure-YS-26Oct07.pdf|この論文]]を参照。 * 1975年: 情報処理学会 計算言語学研究会が設立 * 1981年に[[https://nl-ipsj.or.jp/|自然言語処理研究会(SIG-NL)]]に改称 * 1977年: シャープが[[形態素解析:仮名漢字変換]]方式の日本語ワードプロセッサ試作機をビジネスショウに参考出品 * 1979年: 東芝が[[形態素解析:仮名漢字変換]]方式の日本語ワードプロセッサ [[https://museum.ipsj.or.jp/computer/word/0049.html|JW-10]] を発売。630万円。 === 1980年代 === === 1990年代 === * 1993年: 日本語[[:形態素解析]]システム [[:形態素解析:JUMAN]] Version 1.0 が発表 * 最初のバージョンは Version 0.6で 1992年2月17日付け * 1994年4月1日: [[https://www.anlp.jp/|言語処理学会]]が設立 * 1996年: Google が検索サービスを開始 * 開始当初は BackRub という名称で、1997 年に [[https://www.google.com/|google.com]] がドメイン登録 === 2000年代 === * 2002年: [[:機械翻訳]]の自動評価尺度である [[:類似度|BLEU]] が提案される * Papineni, K.; Roukos, S.; Ward, T.; Zhu, W. J. [[https://aclanthology.org/P02-1040.pdf|BLEU: a method for automatic evaluation of machine translation]]. ACL-2002: 40th Annual meeting of the Association for Computational Linguistics. pp. 311–318. 2002. * 2006年: Google が Google Translate ([[https://translate.google.co.jp/|Google翻訳]]) サービスを開始 * 2006年3月26日: [[;形態素解析:MeCab:]] 最初のバージョンである MeCab 0.90 を発表 * 2009年:日本の著作権法が改正され、[[https://elaws.e-gov.go.jp/document?lawid=345AC0000000048#Mp-At_47_5|検索エンジンに伴う情報の収集、整理・解析・検索結果の表示(第47条の5)]]や[[https://elaws.e-gov.go.jp/document?lawid=345AC0000000048#Mp-At_30_4|情報解析研究のための複製(第30条の4)]]が、著作権者の許諾を得なくても可能であることが明記された。 === 2010年代 === * 2011年2月: IBM が開発した[[:質問応答]]システム [[https://ja.wikipedia.org/wiki/%E3%83%AF%E3%83%88%E3%82%BD%E3%83%B3_(%E3%82%B3%E3%83%B3%E3%83%94%E3%83%A5%E3%83%BC%E3%82%BF)|Watson]] がクイズ番組 [[https://ja.wikipedia.org/wiki/%E3%82%B8%E3%82%A7%E3%83%91%E3%83%87%E3%82%A3!|Jeopardy!]] において人間と対戦し勝利 * 2013年1月: Google が [[:分散表現:Word2Vec]] を発表 * Tomas Mikolov et al. [[https://arxiv.org/abs/1301.3781|Efficient Estimation of Word Representations in Vector Space]]. 1st International Conference on Learning Representations(ICLR). 2013. * 2017年: Google が [[:言語モデル:Transformer]] を発表 * Ashish Vaswan et al. [[https://proceedings.neurips.cc/paper/2017/file/3f5ee243547dee91fbd053c1c4a845aa-Paper.pdf|Attention is all you need]]. Advances in neural information processing systems (NeurIPS 2017), Vol.30. 2017. * 2018年10月: Google が [[:言語モデル:BERT]] を発表 * Jacob Devlin et al. [[https://aclanthology.org/N19-1423/|BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding]]. Proc. of NAACL-HLT 2019. Vol.1, pp.4171–4186. 2019. === 2020年代 === * 2020年: Open AI が [[言語モデル:gpt:gpt-3|GPT-3]] を発表 * Tom B. Brown et al. [[https://arxiv.org/pdf/2005.14165.pdf|Language Models are Few-Shot Learners]]. Advances in neural information processing systems (NeurIPS 2020), Vol.33. 2020. * 2023年4月7日:河野太郎デジタル大臣・国家公務員制度担当大臣が衆議院内閣委員会の答弁で、政府における[[:言語モデル:GPT:ChatGPT:]]などAI活用について「積極的に考えていきたい」と考えを述べる。 * [[https://www.itmedia.co.jp/news/articles/2304/07/news128.html|河野大臣、ChatGPTなどのAI活用は「積極的に考えていきたい」 霞が関の働き方改革巡り答弁]] === 主な参考資料 === * 長尾 真. 機械翻訳はどこまで可能か. 岩波書店. 1986. * 中川 裕志, 森 辰則. [[https://ipsj.ixsq.nii.ac.jp/ej/index.php?action=pages_view_main&active_action=repository_action_common_download&item_id=65887&item_no=1&attribute_id=1&file_no=1&page_id=13&block_id=8|自然言語処理研究会]]. 情報処理, Vol.48, No.8, pp.924-925. 情報処理学会. 2007. * IPSJコンピュータ博物館. [[https://museum.ipsj.or.jp/computer/word/history.html|日本語ワードプロセッサ 誕生と発展の歴史]].