Namazu-users-ja(旧)


[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]

Re: フレーズ検索のHASH値への変換方法



寺西です。

藤原 誠 / Makoto Fujiwara wrote:
> 
> あるいはもっと簡単に
>                          「レコード長」[文書ID][スコア][文書ID][スコア]...
> 
> ではどうでしょうか ?

namazu-devel では良いと書きましたが、これを見てちょっとまずいな
と思いました。

レコードと考えると、
   「レコード長」[文書ID][スコア][文書ID][スコア]...
これ全てをレコードと考えるのが自然です。

しかし、「レコード長」のデータの中身は
 [文書ID][スコア][文書ID][スコア]...
のデータサイズです。

「レコード」は
「データサイズ」「データ」から構成されていて、「データ」は
 [文書ID][スコア][文書ID][スコア]... から構成されているわけです。

# ややこしい。

> ただし「単語1データのレコード長」はおおよその数として、
> 「単語1を含む文書の総数 * 2」になる、

Namazu では、もはや 文書の総数 * 2 として使っている箇所はありません
(修正済み)し、文書の総数 * 2 として扱うとバグの元ですので、ばっさり
消しましょう。
-- 
=====================================================================
寺西 忠勝(TADAMASA TERANISHI)  yw3t-trns@xxxxxxxxxxxxxxx
http://www.asahi-net.or.jp/~yw3t-trns/index.htm
Key fingerprint =  474E 4D93 8E97 11F6 662D  8A42 17F5 52F4 10E7 D14E