下記にテキストを入力してボタンを押すと、単語n-gram(n=1~4)、及び文字n-gram(n=1~4)の頻度統計を1つのExcelファイル(results.xlsx)に出力します。
<html> <form name=“firstcgi”
method="post" action="/cgi-priv/n-gram/n-gram解析.cgi" accept-charset="UTF-8">
<textarea name=text rows=“20” cols=“100”> </textarea> <br><br> <input name=“firstsubmit” type=“submit” value=“n-gram解析”> ※クリック後、1分程度でファイルが出力されます。 </form> </html>
(例文をお持ちでない方は…Yahoo!ニュース)
下記のような統計情報を出力します。以後に示す数字はすべて例です。
異なり | のべ | |
単語1-gram数 | 1649 | 5596 |
単語2-gram数 | 4086 | 5420 |
単語3-gram数 | 4885 | 5244 |
単語4-gram数 | 4989 | 5068 |
文字1-gram数 | 1038 | 9653 |
文字2-gram数 | 5142 | 9477 |
文字3-gram数 | 7472 | 9301 |
文字4-gram数 | 8372 | 9125 |
それぞれ、単語n-gramと文字n-gramの異なり語数(種類数)とのべ語数(頻度)を示します。
例えば、a と b が (a b a b b) と出現した場合、異なりは2、のべは5と数えます。 従って、単語1-gram のべ数が総単語数、文字1-gram のべ数が総文字数となります。
なお、このシートの統計数は下記の表示制限の影響を受けていませんので、 表示の一部が省略されていても統計には含まれています。
a | 数詞 | 58 | 125 |
b | 固有名詞 | 84 | 99 |
c | 普通名詞 | 507 | 708 |
(中略) | |||
z | 記号 | 32 | 562 |
(単語2-gramの出力例)
28 | uz | は | 、 |
28 | rz | だ | 、 |
25 | us | が | ある |
18 | sr | ある | ます |
(以下略) |
(文字2-gramの出力例)
72 | し | て |
70 | ま | す |
69 | て | い |
60 | っ | て |
(以下略) |
品詞情報がないこと以外は単語n-gramと同様です。 左表の例では「して」という表記が72回、「ます」という表記が70回出現したことを意味します。
以下の条件での利用を希望する場合は有償で承ります。詳しくはご相談ください。
有償利用の場合は、何らかの手段でテキストをお預かりして、その解析結果をお渡しする形になります(Webサイトは使いません)。
本ツールをご利用いただいて何かお気づきの場合は下記に短いコメントを残してくだあさい。ご協力よろしくお願いいたします。