namazu-dev(ring)


[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]

Re: How to get tf value?



古川です。

From: Hiroshi KOMATSU <sui_feng@xxxxxxxxxxxxx>
Subject: [namazu-dev 674] Re: How to get tf value?
Date: Thu, 21 Oct 1999 10:34:23 +0900
Message-ID: <199910210134.KAA22194@xxxxxxxxxxxxxx>
sui_feng> # 2.0 のインデックス構造を勉強しなくちゃ

最新のソースを入手なさったならば、pl というディレクトリに、nmzidx.pl
というものがあります。ここでは、2.0 のインデックスの読み書き用の、
アクセス関数群を用意しています。

また、src ディレクトリには、これを使った、

    kwnmz       文書から、キーワードを tf/idf 的に抜き出して、
                NMZ.field.keywords に書き出します

    gcnmz       欠番を詰めてインデックスを作り直します。
                従って、これを実行した後ならば、「NMZ.t のサイズ / 4」
                で全文書数は求められます。

といったものがあります。

# 書きかけですが、ドキュメントは手もとにあります。


基本的には、

    while (defined($handle->read(\$word, \%list))){
        ...
    }

のような感じで、[単語]、[文書番号 -> スコア]のリストを読み出すことが
できます。

また、どんな関数を用意するか、も検討中です。
小松さんに必要な関数 (のうち、汎用的に使えそうなもの) は、用意したい
と思っておりますので、「どんな関数が必要か」を是非教えて下さい。

-- 
Rei FURUKAWA 
furukawa@xxxxxxxxxxxx