Namazu-users-ja(旧)


[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]

Re: 使用頻度の高い名詞と動詞を調べたい



古川です。

From: Matsubara Jota <jota@xxxxxxxxxxxxxxxx>
Subject: [namazu-users-ja] 使用頻度の高い名詞と動詞を調べたい
Date: Tue, 12 Dec 2000 12:42:12 +0900

jota> mknmz で作成したインデックスを解析して、どのような名詞と動詞が多く使用
jota> されているかを解析したいと考えていますが、少々困っています。どなたかご
jota> 教示いただけないでしょうか?

まさに、インデックスを解析したい方のために作った、nmzidx.pl というのが
pl ディレクトリにあります (ろくなドキュメントが無いのが欠点ですが…)

簡単に説明すると、

(1) まず、
    require 'nmzidx.pl';
とします。

(2) インデックスのあるディレクトリを $dir としたら、
    $nmz = new nmzidx($dir, 'r');
    $nmz_word = $nmz->open_word;         # 単語情報
として、

(3) あとは、
    while (defined $nmz_word->read(\$word, \%list)){
        
    }

とやれば、$word に単語、%list に (ファイル番号 => スコア) の組が
入っていますので、ループの中でお好きな処理をどうぞ。

参考としては、pnamazu に入っている、

    tool2/search.pl
    tool2/nmzview.pl
    doc/nmzidx.txt

あたりを見ていただければ、と思います。

-- 
Rei FURUKAWA 
furukawa@xxxxxxxxxxxx