===== Google Colab上でGiNZAをちょっと使ってみる =====

[[:ライブラリ:GiNZA]]を使ってみたのでメモ。

=== 準備 ===

  !pip install -U ginza        # GiNZAのインストール
  import pkg_resources, imp    # おまじない
  imp.reload(pkg_resources)    # おまじない
  import spacy                 # SpaCy
  nlp = spacy.load('ja_ginza') # GiNZA
  from spacy import displacy   # 構文解析結果の表示

=== 形態素解析 ===

  doc = nlp('解析したいテキストをここに入力する。')
  for sent in doc.sents:
  　　for token in sent:
    　print(token.i, token.orth_, token.lemma_, token.pos_, token.tag_, token.dep_, token.head.i)

=== 固有表現認識 ===

  doc = nlp('小林は７月に新潟の三越で2０キロの柴犬に噛まれたらしい。')
  displacy.render(doc, style="ent", jupyter=True)

=== 構文解析 ===

  doc = nlp('少女の古いアパートが壊されかけた')
  displacy.render(doc, style='dep', jupyter=True, options={'distance': 100})

=== 単語の類似度を計算 ===

  tokens = nlp('学校 大学 バナナ')
  for t1 in tokens:
      for t2 in tokens:
      if t1 == t2:
        break
      print('{} と {} の類似度：{:.2}'.format(t1, t2, t1.similarity(t2)))

=== 文の類似度を計算 ===

  doc1 = nlp('個人事業は昼寝ができるのが最大の特権だ。')
  doc2 = nlp('少しぐらい寒くても毎日散歩はしたほうがいい。')
  doc3 = nlp('今年になってから東京に出張していない。')
  for d1 in (doc1, doc2, doc3):
      for d2 in (doc1, doc2, doc3):
        if d1 == d2:
        break
      print('「{}」と「{}」の類似度：{:.2}'.format(d1, d2, d1.similarity(d2)))