[Namazu-users-ja 766] Re: 文書毎の検索ワード出現回数のログについて
Tadamasa Teranishi
yw3t-trns @ asahi-net.or.jp
2006年 6月 6日 (火) 13:05:32 JST
寺西です。
森田剛 wrote:
>
> Namazuのログで,検索ワードにヒットした文書ごとの
> 検索ワードの出現回数(TF)を出力できたりしますでしょうか?
機能としてはありませんので、プログラムを改造しなければできません
ということになります。
TF をどのような目的で使いたいのでしょう?
> Namazuは,スコア計算にTFを使っているそうなので,
> そのスコア計算に用いている各変数のログが出せると
> 大変助かります.
スコア計算(の大部分)は、mknmz で行います。この際に Namazu なりの
加工を行いますので、TF そのものは扱っていません。
例えば、mknmzrc の %Weight が係数として掛けたものを扱っていたり
するためです。
そのため正確な TF ではありませんが、類似の値としてはスコアが
相当します。
単語検索の場合は、
参考ヒット数: [ namazu: 52 ]
検索式にマッチする 52 個の文書が見つかりました。
1. Namazu のテスト (スコア: 67)
著者: test @ namazu.org
日付: Sat, 21 Aug 2004 23:51:48 +0900
のスコアの値です。(%Weight 等の加工が行われています。)
ただし、複数の単語による or 検索や、(自動的に分解された場合も含めて)
フレイズ検索となった場合は、各種計算後のスコアになるので注意が必要
です。
参考ヒット数: { [ 全文: 51 ] [ 検索: 51 ] :: 51 }
検索式にマッチする 51 個の文書が見つかりました。
1. powerpoint2002.rtf (スコア: 16)
著者: 不明
日付: Sat, 21 Aug 2004 23:51:49 +0900
また、このスコアは、インデックスファイルに記録されています。
NMZ.i のスコアになります。
http://www.namazu.org/doc/nmz.html.ja#i
NMZ.i
[単語1用 データ長][文書ID][スコア][文書ID][スコア]...
[単語2用 データ長][文書ID][スコア][文書ID][スコア]...
[単語3用 データ長][文書ID][スコア][文書ID][スコア]...
:
NMZ.i の順は NMZ.w に並んでいる順に単語の順になります。
文書IDは NMZ.field.uri の文書の順番をしめしています。(0 から始まる)
--
=====================================================================
寺西 忠勝(TADAMASA TERANISHI) yw3t-trns @ asahi-net.or.jp
http://www.asahi-net.or.jp/~yw3t-trns/index.htm
Key fingerprint = 474E 4D93 8E97 11F6 662D 8A42 17F5 52F4 10E7 D14E
Namazu-users-ja メーリングリストの案内