[Namazu-users-ja 542] Re: Namazu の検索 Hit 数に関して

Tadamasa Teranishi yw3t-trns @ asahi-net.or.jp
2005年 10月 18日 (火) 18:02:26 JST


寺西です。

# 良い機会なのでインデックスの更新について書きます。

Tadamasa Teranishi wrote:
> 
> 実際の文書数が 4,851 で、「技術」は 635 文書に含まれているのに、
> nmzcount.pl の結果は「技術」が38,537文書となっているということは、
> 
> 「技術」に関しては 635 / 38,537 = 1.64% ということですので、実に
> 98.3%がゴミだということです。
> 
> これはさすがに gcnmz でインデックスの整理をするべきでしょう。

mknmz のインデックスの更新機能は、全文書のうち、ほんの少しの文書が
追加/削除/更新されることを想定したモデルとなっています。
また、更新は(基本的に)ファイルのタイムスタンプで判断しますので、
中身が同一でもタイムスタンプが異なれば更新されたものとみなします。

このため文書の削除や更新が頻繁に起こる場合は、定期的に gcnmz で
インデックスの整理を行わないと効率が悪くなります。

wget 等で定期的にローカルファイルを更新する場合で、タイムスタンプが
無効でローカルファイルのタイムスタンプが書き換わってしまう場合は、
インデックスの更新 + gcnmz を実行するよりは、古いインデックスを
削除して新たにインデックスを作成した方が便利な場合があります。

gcnmz を実行するタイミングは文書の削除/更新の頻度と全体の文書数に
しめる割合により、算出するのが理想ですが、しばらく運用して gcnmz を
実行する周期を適当に決める(たとえば1週間に1回とか1ヶ月に1回とか)のが
一般的なようです。
-- 
=====================================================================
寺西 忠勝(TADAMASA TERANISHI)  yw3t-trns @ asahi-net.or.jp
http://www.asahi-net.or.jp/~yw3t-trns/index.htm
Key fingerprint =  474E 4D93 8E97 11F6 662D  8A42 17F5 52F4 10E7 D14E




Namazu-users-ja メーリングリストの案内