言語商会

言語商会GH自然言語処理

GH n-gram解析

下記にテキストを入力してボタンを押すと、単語n-gram(n=1~4)、及び文字n-gram(n=1~4)の頻度統計を1つのExcelファイル(results.xlsx)に出力します。

<html> <form name=“firstcgi”

    method="post"
    action="/cgi-priv/n-gram/n-gram解析.cgi"
    accept-charset="UTF-8">

<textarea name=text rows=“20” cols=“100”> </textarea> <br><br> <input name=“firstsubmit” type=“submit” value=“n-gram解析”> ※クリック後、1分程度でファイルが出力されます。 </form> </html>

(例文をお持ちでない方は…Yahoo!ニュース

まとめシート

下記のような統計情報を出力します。以後に示す数字はすべて例です。

異なり のべ
単語1-gram数 1649 5596
単語2-gram数 4086 5420
単語3-gram数 4885 5244
単語4-gram数 4989 5068
文字1-gram数 1038 9653
文字2-gram数 5142 9477
文字3-gram数 7472 9301
文字4-gram数 8372 9125

それぞれ、単語n-gramと文字n-gramの異なり語数(種類数)とのべ語数(頻度)を示します。

例えば、a と b が (a b a b b) と出現した場合、異なりは2、のべは5と数えます。 従って、単語1-gram のべ数が総単語数、文字1-gram のべ数が総文字数となります。

なお、このシートの統計数は下記の表示制限の影響を受けていませんので、 表示の一部が省略されていても統計には含まれています。

a 数詞 58 125
b 固有名詞 84 99
c 普通名詞 507 708
(中略)
z 記号 32 562
  • 出現単語(=単語1-gram)の品詞別の統計です。数字は順に異なり数とのべ数を意味します。左の表では、58種類の数詞が合計125回出現したことを意味します。こののべ数の合計が上記単語1-gramののべ数と一致します。
  • 品詞についてはGH品詞体系をご参照ください。

単語n-gramシート

(単語2-gramの出力例)

28 uz
28 rz
25 us ある
18 sr ある ます
(以下略)

順に、頻度、品詞列、単語1、単語2を示します。 左表の例では「は」(品詞:u)と「、」(品詞:z)の連続が 28回出現したことを意味します。

  • 単語はすべて正規形で統計を取り、また正規形で表記しています。
    • 動詞は出現時の活用形に関係なく同じ動詞として統計を取っていますし、表記ゆれも解消した上で統計が取られています。
    • 上記の頻度18の「ある+ます」は実際には「あります」「ありまし」「ありませ」などと出現したと推測されます。
  • 正規形についてはGH単語体系を、品詞についてはGH品詞体系をそれぞれご参照ください。
  • 出力が1,001行以上となる場合は頻度上位1,000行のみ出力されます。

文字n-gramシート

(文字2-gramの出力例)

72
70
69
60
(以下略)

品詞情報がないこと以外は単語n-gramと同様です。 左表の例では「して」という表記が72回、「ます」という表記が70回出現したことを意味します。

  • 出力が1,001行以上となる場合は頻度上位1,000行のみ出力されます。

使用上の注意

  • 本形態素解析はGH単語体系GH品詞体系に従って結果を出力します。
  • 本サイトは免責事項に同意いただける場合に限り、無償でご利用いただけます。
  • 入力テキストの解析対象の上限は10,000文字です。入力の制限はありませんが、解析制限超過分は無視されますのでご注意ください。
  • 入力テキストの内容は一切保存していません。
  • アクセスログ(日時, IPアドレス, 入力テキスト規模)は記録しており、サーバーに過大な負荷をかけるIPアドレスは予告なく以後のアクセスを遮断します。
  • 出力結果について問題やご要望、その他お気づきの点がありましたらご連絡ください。

有償利用について

以下の条件での利用を希望する場合は有償で承ります。詳しくはご相談ください

  • 前述の解析制限、及び表示制限を超える規模で解析を希望する場合
    • 継続利用する場合は月額固定料金での利用も可能です。
  • 入力テキストが外部流出しないことの保証を希望する場合
    • この場合は秘密保持契約(NDA)を締結します。
  • 解析のカスタマイズを希望する場合
    • 例えば、もっと長いn-gramを解析したい、すべて出力してほしい、他の形態素解析器で解析してほしいなど
    • もし技術的に対応できない場合はお引き受けできない可能性もあります。

有償利用の場合は、何らかの手段でテキストをお預かりして、その解析結果をお渡しする形になります(Webサイトは使いません)。

更新履歴

  • 2021-10-01 | 外部公開

お願い

本ツールをご利用いただいて何かお気づきの場合は下記に短いコメントを残してくだあさい。ご協力よろしくお願いいたします。

 (感想・要望・情報提供)