Namazu-win32-users-ja(旧)


[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]

Re: Namazu の検索限度について



古川です。

From: j_urayama@xxxxxxxxx
Subject: [namazu-win32-users-ja] Namazu の検索限度について
Date: Wed, 14 Feb 2001 11:24:36 +0900

j_urayama> Namazuの仕様に対しての質問です。
j_urayama> 検索対象の限界はどのくらいなのでしょうか?

たぶん仕様的には、インデックスのサイズが 32bit を超えなければ
大丈夫だとは思います。が、設定の工夫は要るかもしれません。


j_urayama> またCPU・メモリーは増設可能です。
j_urayama> どんな意見でも構いません。お待ちしております。

ファイルの内容に依存すると思いますので、例えば、3000 件、3万件、
30万件と、予備実験をして、必要なリソースの傾向をつかむとよいで
しょう。

インデックスのサイズに関する、ヒントを挙げておきます。


NMZ.t
    ファイル数 * 4 です。

NMZ.r, NMZ.field.*
    内容に依存しますが、平均的には、ファイル数に比例します。

NMZ.w*
    (単語毎の長さのバラツキが少ないと仮定すると) 文書群全体に
    含まれる、語の種類に比例します。

    ファイル数/サイズが増えると、当然増える傾向にはありますが、
    単語の種類は有限なので、あるサイズからは増えにくくなるはず
    です。

    # 英数字や仮名の組み合わせは無限なので、完全に飽和するわけ
    # ではありません

NMZ.i*
    まあファイルサイズに比例と言ってもいいかもしれませんが、も
    う少し細かくいうと、

        [一つのファイルに含まれる語の種類] * [ファイル数]

    に、ほぼ比例します。

    一つのファイルに同じ語がいくつもあるような場合には、思った
    ほど大きくならなかったりするので、結局はファイルの内容に依
    存します。

NMZ.p
    NMZ.i と同じような傾向で大きくなっていくと推測されます。

NMZ.pi
    サイズは固定です。

-- 
Rei FURUKAWA 
furukawa@xxxxxxxxxxxx