namazu-dev(ring)


[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]

Re: How to get tf value?



古川です。

引用が前後しますが…

From: Hiroshi KOMATSU <sui_feng@xxxxxxxxxxxxx>
Subject: [namazu-dev 680] Re: How to get tf value?
Date: Mon, 25 Oct 1999 10:55:34 +0900
Message-ID: <199910250155.KAA23147@xxxxxxxxxxxxxx>

sui_feng>  リリースお待ちします。Perl流の SYNOPSIS と EXAMPLE があるだけでも

sui_feng> 助かります。あと、テキスト吐き出しのほかに、Data::Dumper 吐き出し

実は、私は、「perl 流の SYNOPSIS と EXAMPLE」「Data::Dumper」につ
いて、よく知らないのです。この点について、御指導いただけると、あり
がたいです。


sui_feng> 	$hash{$document_number}{$word} = $score;
sui_feng> 
sui_feng> いうデータ構造に読み込んで使っていますので、  1.3.x 用のソースを少し改良
sui_feng> するだけで 2.0 に対応できそうです。
sui_feng>  上記のような「再転置データのハッシュ」を出力していただけると、

これを出力することは、できるとは思うのですが、単純にやると、結局、
インデックスを全部読みこむことになります。環境 & データの規模によっ
ては、メモリが心配になるのですが…

小松さんの想定する使い方について、教えてください。

(1) 同じデータを複数回参照しますか?
(2) 最終的に、全てのデータを参照しますか?

(1) が no であれば、&score($document_number, $word) のような関数に
することが考えられます。

(1) が yes でも、(2) が no であれば、関数にキャッシュをつける方法
も、あり得ます。

(1)(2) 両方 yes であれば、メモリのことは考えずに、ハッシュを出力す
るようにします。


sui_feng> してしまいました。kwnmz では too many を排除という形のようですが、たとえ
sui_feng> ば「第」と「条」というのは、法律文では too many で、検索の役にはあまり
sui_feng> 立ちませんが、法律条文と、そうでないものを分類するときには、非常に役に
sui_feng> 立ちます。stop words を場合によって使い分けたいわけです。

ここは、「検索」と「分類」の違いでしょうか。

検索の場合は、結果の文書を読むことが目的なので、ある程度少なく絞り
たいですが、分類の場合、少ない文書に分けると、逆に分類数が多くなる
ので、あまり嬉しくないですね。

ヒット数の評価を、中程度 (直観的には、「文書数**0.5」くらい?) で
ピークにくるようにするのがいいかもしれません。

-- 
Rei FURUKAWA 
furukawa@xxxxxxxxxxxx