[Namazu-users-ja 532] Re: Namazu の検索 Hit 数に関して

Tadamasa Teranishi yw3t-trns @ asahi-net.or.jp
2005年 10月 18日 (火) 03:21:42 JST


寺西です。

biz wrote:
> 
> 2..namazurcにあるMaxHitはデフォルトの10000のままです。

文書数が4,000なら、これで検索できるはずです。
もし、検索できないならバグかインデックスが壊れているのでしょう。

> 3.この状況でMaxHitを25000以上に増やすと検索結果が1分返
> 答が帰ってこなく、タイムアウトになります。(おそらくサー
> バのスペックに依存するものかと思いますが...。私のサー
> バの環境では25000以下ですと1秒以内に検索結果が返ってきま
> す。)

namazu.cgi ではなく、namazu コマンドで検索した場合はどうなるで
しょうか?

なお、スペックにもよりますが単一単語検索なら1分以上検索にかかると
いうのは異常な状態だと思います。

ある単語とは具体的には何でしょう。正規表現や部分一致検索等に使う
何か記号が含まれていませんか?

> ---前置きが長くなりましたが、お聞きしたい点は以下です。
> ・皆さんはMaxHitの設定をどのくらいにしていますでしょうか
>> (25000程度で検索できなくなるものなのでしょうか?)

環境に依存する話です。

しかし、25,000件もヒットする語で検索しても、絞り込みが不十分
でしょうから、あまり意味をなさないのではないでしょうか?
また、総文書数が4,000なら本来MaxHitは変更する必要はありません。

> ・現在index化しているページ数は4000程度ですが、MaxHit(
> ヒットする文書数)が10000を超えているのに、Hit数がそれ以
> 上になるのはなぜでしょうか?(もしかして1ページ内にある
> 検索ワードの数をカウントしているのでしょうか?)

文書数ですから NMZ.status の files より大きくなることはない
はずです。

実際、文書数が 4,000 なのでしょうか? NMZ.status の値はどうなって
いますか?
また、実際にヒット数は 10,000 を超えているのでしょうか?
(MaxHit を 10,000 まで増やしても検索できないから、そう判断された
のでしょうか?)

namazu.cgi にバグがあり、ヒット数の判定に誤りがあるという可能性は
あります。
# どちらかといえば、インデックスが壊れてるという可能性の方が高い
# ですけれども。

> ・Hit数が多く、検索結果が出てこない現象に関して上記に記
> した前提条件を変えずに検索結果を出す方法はありますでしょ
> うか?

本来でしたら、デフォルトで検索できるはずですが...。

> (「1ページ内にある検索ワードの数をカウントしている」と
> いう仮説が正しければ、1ページ内に1語検索ワードがあった
> らそのページ内はそれ以降検索ワードをカウントしない とい
> った設定がありますでしょうか?)

いえ。文書数ですので1文書に何度出ても1とカウントする仕様です。
-- 
=====================================================================
寺西 忠勝(TADAMASA TERANISHI)  yw3t-trns @ asahi-net.or.jp
http://www.asahi-net.or.jp/~yw3t-trns/index.htm
Key fingerprint =  474E 4D93 8E97 11F6 662D  8A42 17F5 52F4 10E7 D14E




Namazu-users-ja メーリングリストの案内