自然言語処理の餅屋

文書の過去の版を表示しています。

GiNZA

GiNZAとは

オープンソース日本語自然言語処理ライブラリ。インストールが簡単、高速・高精度、UD対応。最先端の機械学習技術を取り入れた自然言語処理ライブラリspaCyをフレームワークとして利用しています。

Google Colab上でちょっと使ってみる

準備

!pip install -U ginza        # GiNZAのインストール
import pkg_resources, imp    # おまじない
imp.reload(pkg_resources)    # おまじない
import spacy                 # SpaCy
nlp = spacy.load('ja_ginza') # GiNZA
from spacy import displacy   # 構文解析結果の表示

形態素解析

doc = nlp('解析したいテキストをここに入力する。')
for sent in doc.sents:
　　for token in sent:
  　print(token.i, token.orth_, token.lemma_, token.pos_, token.tag_, token.dep_, token.head.i)

固有表現認識

doc = nlp('小林は７月に新潟の三越で2０キロの柴犬に噛まれたらしい。')
displacy.render(doc, style="ent", jupyter=True)

構文解析

doc = nlp('少女の古いアパートが壊されかけた')
displacy.render(doc, style='dep', jupyter=True, options={'distance': 100})

単語の類似度を計算

tokens = nlp('学校 大学 バナナ')
for t1 in tokens:
    for t2 in tokens:
    if t1 == t2:
      break
    print('{} と {} の類似度：{:.2}'.format(t1, t2, t1.similarity(t2)))

文の類似度を計算

doc1 = nlp('個人事業は昼寝ができるのが最大の特権だ。')
doc2 = nlp('少しぐらい寒くても毎日散歩はしたほうがいい。')
doc3 = nlp('今年になってから東京に出張していない。')
for d1 in (doc1, doc2, doc3):
    for d2 in (doc1, doc2, doc3):
      if d1 == d2:
      break
    print('「{}」と「{}」の類似度：{:.2}'.format(d1, d2, d1.similarity(d2)))

記事

2022-02-28 | spaCy/GiNZAの形態素解析処理 Sudachiの設定ファイルを変更する方法
2022-02-27 | spaCy/GiNZAの形態素解析処理 Sudachiにユーザ定義辞書を追加する方法
2021-12-11 | 【Python】GiNZA+SudachiPyを使ってテキスト内の品詞出現頻度を解析してみた
2021-11-05 | spaCyとGiNZAを使った日本語自然言語処理
2021-08-25 | Pythonで日本語テキストを解析する
2021-08-21 | pythonと自然言語処理のGiNZAをインストール
2021-05-04 | 2020年度SQiP研究会で発表された「自然言語処理を利用した類似障害情報の抽出と活用方法の提案」の内容を写経してみた
2021-05-01 | 【Python】GiNZAをインストールして機械学習による形態素解析を行う
2021-03-01 | spaCyとGiNZAで名詞を抽出する【自然言語処理, Python】
2021-01-03 | 自然言語処理ライブラリGiNZAの解析結果を解りやすく表示してみた
2020-12-16 | Lambda+EFSで自然言語処理ライブラリ(GiNZA)使ってみる
2020-10-10 | Japanese Language Analysis by GPU Ready Open Source NLP Frameworks - Hiroshi Matsuda, universal_dependencies, spaCy, Stanza
2020-09-27 | 日本語NLPライブラリGiNZAのすゝめ - spaCy, 文分割, 構文解析, 自動要約, 類似度
2020-07-07 | GiNZA入門 (1) - 事始め
2020-03-24 | 自然言語処理ライブラリGiNZAで固有表現抽出してみた - 固有表現認識 - Qiita
2020-01-27 | 何もない所から一瞬で、自然言語処理と係り受け解析をライブコーディングする手品を、LTでやってみた話 - Qiita
2020-01-21 | 【初心者向け】自然言語処理ツール「GiNZA」を用いた言語解析（形態素解析からベクトル化まで）
2019-12-06 | GiNZA+Elasticsearchで係り受け検索の第一歩
2019-10-14 | Ginzaで形態素解析、係り受け解析、固有表現抽出、ユーザー辞書追加
2019-09-04 | GiNZAで始める日本語依存構造解析〜CaboCha, UDPipe, Stanford NLPとの比較〜

(感想・要望・情報提供)　

自然言語処理の餅屋

サイドバー

目次

GiNZA

GiNZAとは

Google Colab上でちょっと使ってみる

準備

形態素解析

固有表現認識

構文解析

単語の類似度を計算

文の類似度を計算

記事

自然言語処理の餅屋

ユーザ用ツール

サイト用ツール

サイドバー

目次

GiNZA

GiNZAとは

Google Colab上でちょっと使ってみる

準備

形態素解析

固有表現認識

構文解析

単語の類似度を計算

文の類似度を計算

記事

ページ用ツール