[Namazu-users-ja 541] Re: Namazu の検索 Hit 数に関して

Tadamasa Teranishi yw3t-trns @ asahi-net.or.jp
2005年 10月 18日 (火) 17:38:24 JST


寺西です。

biz wrote:
> 
> >問題のインデックスは更新を頻繁に繰り返しているの
> >でしょう。そうすると文書数はどんどん多くなり
> >nmzcount.pl で表示する値は実際の文書数よりも
> >増えます。削除された文書もカウントされているため。

実際の文書数が 4,851 で、「技術」は 635 文書に含まれているのに、
nmzcount.pl の結果は「技術」が38,537文書となっているということは、

「技術」に関しては 635 / 38,537 = 1.64% ということですので、実に
98.3%がゴミだということです。

これはさすがに gcnmz でインデックスの整理をするべきでしょう。

> >もし、この削除された文書数も含めて MaxHit の
> >チェックで引っかかっているのなら、namazu のバグです。
> ># これについては、もう少し調べてみます。
> まさにそのとおりです。半年以上の間、毎晩Index化をしてい
> ます。上記に関して調査していただけると言うことで、お手数
> ですがよろしくお願いいたします。

問題箇所を見つけました。添付のパッチを nmz/hlist.c にあてると、
削除された文書はカウントせずに有効な文書のみで MaxHit をチェック
するようになります。
# ただし、パッチは十分にテストしていません。
 
> >問題は namazu.cgi の場合タイムアウトになる件ですが、
> >文書数が多くなりすぎて、その処理のためにより多くの
> >時間を必要として 60 秒以上時間がかかっているのでしょう
>> そうですね。gcnmzを時々行って検索ができるのであれば、タ
> イムアウトの時間は延ばさずにこのまま運用していこうと考え
> ております。

パッチをあてたとしても、全文書数分の処理には時間がかかるかもしれない
ので、結局タイムアウトには引っかかるかもしれません。
これは有効なデータが 1.64% ということですから仕方ないでしょう。

パッチに加えて、定期的に gcnmz でデータの整理して運用すると、おそらく
問題はないものと思います。
-- 
=====================================================================
寺西 忠勝(TADAMASA TERANISHI)  yw3t-trns @ asahi-net.or.jp
http://www.asahi-net.or.jp/~yw3t-trns/index.htm
Key fingerprint =  474E 4D93 8E97 11F6 662D  8A42 17F5 52F4 10E7 D14E
-------------- next part --------------
テキスト形式以外の添付ファイルを保管しました...
ファイル名: namazu-2.0.14-maxhit.patch.gz
型:         application/x-gzip
サイズ:     548 バイト
説明:       無し
URL:        http://www.namazu.org/pipermail/namazu-users-ja/attachments/20051018/9b80364c/namazu-2.0.14-maxhit.patch.bin


Namazu-users-ja メーリングリストの案内