[Namazu-users-ja 539] Re: Namazu の検索 Hit 数に関して

Tadamasa Teranishi yw3t-trns @ asahi-net.or.jp
2005年 10月 18日 (火) 16:28:30 JST


寺西です。

# ごめんなさい。今頃気づきました。

biz wrote:
> 
> Indexが壊れる原因がわかり案したらここでご報告いたします
>> 
> 先ほど頂いたnmzcount.plを実行しましたところ、該当する単
> 語の登録文書数は以下となりました。
> 「技術」・・・38537
> 「基本」・・・56131
> NMZ.status のfilesの 4851 よりも多い数値が返ってきまし
> た。

これは異常かと思いましたが、

> また、.namazurcのMaxHitを1桁増やし100000(10万)に変更し
> てnamazuをコマンドから実行しました。結果は以下です。
> 「技術」・・・635
> 「基本」・・・804

ということから考えると間違いに気づきました。ごめんなさい。

問題のインデックスは更新を頻繁に繰り返しているのでしょう。
そうすると文書数はどんどん多くなり nmzcount.pl で表示する値は
実際の文書数よりも増えます。削除された文書もカウントされているため。

もし、この削除された文書数も含めて MaxHit のチェックで引っかかって
いるのなら、namazu のバグです。
# これについては、もう少し調べてみます。

では、問題のインデックスをコピーして gcnmz でインデックスを更新する
と、NMZ.status の files の 4851 より小さくなるでしょう。
また、その状態なら検索できるのではないかと思います。

問題は namazu.cgi の場合タイムアウトになる件ですが、文書数が多く
なりすぎて、その処理のためにより多くの時間を必要として 60 秒以上
時間がかかっているのでしょう。
.namazurc に SUICIDE_TIME でタイムアウトの時刻を設定することが
できますので、これでタイムアウトの時間を延ばしてみてください。
# ただ、Web サーバへの負荷は増えてしまいますが...。
-- 
=====================================================================
寺西 忠勝(TADAMASA TERANISHI)  yw3t-trns @ asahi-net.or.jp
http://www.asahi-net.or.jp/~yw3t-trns/index.htm
Key fingerprint =  474E 4D93 8E97 11F6 662D  8A42 17F5 52F4 10E7 D14E




Namazu-users-ja メーリングリストの案内