Namazu-users-ja(旧)


[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]

Re: 大量データを扱いたいのですが・・・




廣瀬ともうします。

At Fri, 07 Jul 2000 11:40:58 +0900,
Kiriyama Takuya <takuya.kiriyama@xxxxxxxxxxx> wrote:

> 在庫データ等の検索に使おうと考えているのですが、在庫の更新が最低一日に
> 一回はありまして、そのたびにindexを作るとなると大変かなと思っています。

更新部分がごく一部なら、それほど心配することはないと思います
# 保証はできませんけど
もしくは、indexを作成する計算機を別に用意して、rsyncで差分のみを更新する
とかではダメでしょうか。

> もし100万件検索かけたらちゃんと返ってくるまでの時間を考えたら
> ちょっと恐ろしくなってしまって・・・

以前、すぎうらしろうさんが87万ファイル(news)を対象にしたインデクスを
作成しています。
http://www.namazu.org/ml/namazu-ring/msg00961.html
より:

> [Base]
> Date: Tue Aug 31 18:46:20 1999
> Added Files: 878,914 files
> Total Files: 878,914 files
> Size: 2,167,480,108 bytes
> Added Keywords: 7,339,687 words
> Total Keywords: 7,339,687 words
> Wakati: module_kakasi -ieuc -oeuc -w
> ARGV: '-ahu' '-F' 'B'
> Perl Version: 5.00503
> Namazu Version: 1.4.0.0-beta-8
> System: freebsd
> Time: 79874 sec.

http://www.namazu.org/ml/namazu-ring/msg00964.html
より:

> ディスクをガリガリいわせていて、一瞬というわけにはいかないのですが。
[snip]
> ちゃんと検索できます。

作成された環境は
CPU     PentiumII 450 (100x4.5)
MEMORY  128M x 3 = 384Mbyte
OS      FreeBSD3.3.2 RELEASE
SWAP    512MByte
Namazu-1.4.0.0-beta-8
だそうです。

FAQにもあります。
http://www.namazu.org/FAQ.html#index-scale

すぎうらさんが試された環境は1.4.0.0ですから、
いまのNamazu2.0.4ならば、インデクスのサイズが
かなり小さくなっていると思います。

ですが、1.4.0.0系とは異なり2.x系はFile::MMagicが
入っていますのでそのオーバーヘッド分だけは
インデクス作成に時間がかかるかも知れません。

----
HIROSE Yoshihide
Meadow勉強中