===== Google Colab上でGiNZAをちょっと使ってみる ===== [[:ライブラリ:GiNZA]]を使ってみたのでメモ。 === 準備 === !pip install -U ginza # GiNZAのインストール import pkg_resources, imp # おまじない imp.reload(pkg_resources) # おまじない import spacy # SpaCy nlp = spacy.load('ja_ginza') # GiNZA from spacy import displacy # 構文解析結果の表示 === 形態素解析 === doc = nlp('解析したいテキストをここに入力する。') for sent in doc.sents:   for token in sent:  print(token.i, token.orth_, token.lemma_, token.pos_, token.tag_, token.dep_, token.head.i) === 固有表現認識 === doc = nlp('小林は7月に新潟の三越で20キロの柴犬に噛まれたらしい。') displacy.render(doc, style="ent", jupyter=True) === 構文解析 === doc = nlp('少女の古いアパートが壊されかけた') displacy.render(doc, style='dep', jupyter=True, options={'distance': 100}) === 単語の類似度を計算 === tokens = nlp('学校 大学 バナナ') for t1 in tokens: for t2 in tokens: if t1 == t2: break print('{} と {} の類似度:{:.2}'.format(t1, t2, t1.similarity(t2))) === 文の類似度を計算 === doc1 = nlp('個人事業は昼寝ができるのが最大の特権だ。') doc2 = nlp('少しぐらい寒くても毎日散歩はしたほうがいい。') doc3 = nlp('今年になってから東京に出張していない。') for d1 in (doc1, doc2, doc3): for d2 in (doc1, doc2, doc3): if d1 == d2: break print('「{}」と「{}」の類似度:{:.2}'.format(d1, d2, d1.similarity(d2)))