[Namazu-users-ja 1131] Re: namazuのキーワード数限界値について

Tadamasa Teranishi yw3t-trns @ asahi-net.or.jp
2008年 12月 20日 (土) 19:09:18 JST


寺西です。

doihr @ nttdata.co.jp wrote:
> 
> namazuでインデックスに登録されるキーワード数に限界値が存在するかどうか、
> ご存知の方、もしくは、何か知恵をお貸し頂ける方おられましたら、教えてくださ
> い。

単語の登録数の限界についてですが、おそらく 2^31 ぐらいが限界でしょう。
しかし、単語の登録数の限界の前に別の限界に引っかかります。

> 7日間かかりましたが、インデックス作成は無事完了したように
> NMZ.logから見受けられます。

# チューニングして使いましょう。(^_^;

普通は巨大なひとつのインデックスを使うのではなく、複数のインデックス
に分けて作成して使いますけど...。

ところで

> Total Keywords:      108,033,263

とありますが、この単語は全て有効なものなんでしょうか?

何となくゴミが入ってそれで単語数が爆発的に増えているのではないか
とか思ったりします。
というのも、1文書あたり平均約250個も新しい単語があるわけですから...。

> ファイル数、ファイルサイズともに大きなディレクトリに対して、

そのファイルサイズの大きなものとはどのような種類のファイルなので
しょう。
Namazu が対応していない形式のファイルとかが含まれていて、
別の文書ファイルと誤認されていないでしょうか。
特に mknmz に -a オプションなんてつけて実行していないですよね?

> しかし、コマンドライン、namazu.cgi(GUI)ともに検索を試みると、
> 下記のように、インデックスを認識してくれません。
...
> 参考ヒット数:  [  (インデックスが開けませんでした)  ]
> 検索式にマッチする文書はありませんでした。

今、ソースを確認できる環境ではないので、このエラーが発生する
条件は確認できませんが、調べてみましょう。

インデックスファイルのどれかが壊れているか、あるいはファイル
サイズが2GBを越えているからではないかとか、というのが今思い
付くことです。

> ファイル数と、サイズは当メーリングリストの過去最高記録を
> 下回っていますが、キーワード数1億以上の実績ってありますか?

過去最高記録って、報告していただいたものに過ぎませんし、それと
Namazu の限界とは関係ないです。
-- 
=====================================================================
寺西 忠勝(TADAMASA TERANISHI)  yw3t-trns @ asahi-net.or.jp
http://www.asahi-net.or.jp/~yw3t-trns/index.htm
Key fingerprint =  474E 4D93 8E97 11F6 662D  8A42 17F5 52F4 10E7 D14E



Namazu-users-ja メーリングリストの案内