[Namazu-users-ja 766] Re: 文書毎の検索ワード出現回数のログについて

Tadamasa Teranishi yw3t-trns @ asahi-net.or.jp
2006年 6月 6日 (火) 13:05:32 JST


寺西です。

森田剛 wrote:
> 
> Namazuのログで,検索ワードにヒットした文書ごとの
> 検索ワードの出現回数(TF)を出力できたりしますでしょうか?

機能としてはありませんので、プログラムを改造しなければできません
ということになります。

TF をどのような目的で使いたいのでしょう?

> Namazuは,スコア計算にTFを使っているそうなので,
> そのスコア計算に用いている各変数のログが出せると
> 大変助かります.

スコア計算(の大部分)は、mknmz で行います。この際に Namazu なりの
加工を行いますので、TF そのものは扱っていません。
例えば、mknmzrc の %Weight が係数として掛けたものを扱っていたり
するためです。

そのため正確な TF ではありませんが、類似の値としてはスコアが
相当します。
単語検索の場合は、


 参考ヒット数:  [ namazu: 52 ]

 検索式にマッチする 52 個の文書が見つかりました。

 1. Namazu のテスト (スコア: 67)
 著者: test @ namazu.org
 日付: Sat, 21 Aug 2004 23:51:48 +0900


のスコアの値です。(%Weight 等の加工が行われています。)
ただし、複数の単語による or 検索や、(自動的に分解された場合も含めて)
フレイズ検索となった場合は、各種計算後のスコアになるので注意が必要
です。


 参考ヒット数:  {  [ 全文: 51 ]  [ 検索: 51 ]  :: 51 }

 検索式にマッチする 51 個の文書が見つかりました。

 1. powerpoint2002.rtf (スコア: 16)
 著者: 不明
 日付: Sat, 21 Aug 2004 23:51:49 +0900


また、このスコアは、インデックスファイルに記録されています。
NMZ.i のスコアになります。

http://www.namazu.org/doc/nmz.html.ja#i

NMZ.i
    [単語1用 データ長][文書ID][スコア][文書ID][スコア]...
    [単語2用 データ長][文書ID][スコア][文書ID][スコア]...
    [単語3用 データ長][文書ID][スコア][文書ID][スコア]...
       :

NMZ.i の順は NMZ.w に並んでいる順に単語の順になります。
文書IDは NMZ.field.uri の文書の順番をしめしています。(0 から始まる)
--
=====================================================================
寺西 忠勝(TADAMASA TERANISHI)  yw3t-trns @ asahi-net.or.jp
http://www.asahi-net.or.jp/~yw3t-trns/index.htm
Key fingerprint =  474E 4D93 8E97 11F6 662D  8A42 17F5 52F4 10E7 D14E




Namazu-users-ja メーリングリストの案内