Namazu-users-ja(旧)


[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]

Re: 400G を indexing したいのですがアドバイスおねがいします。



On Mon, 15 Oct 2001 15:27:14 JST
In article <200110150629.PAA12767@xxxxxxxxxxxxx>
[[namazu-users-ja] Re: 400G を indexing したいのですがアドバイスおねがいします。]
knok@xxxxxxxxxxxxx (NOKUBI Takatsugu) wrote:

> >> データサイズが全部で400Gあり、ファイル数が5000万ほどあります。
> >> これをindexingをしようと考えていますが
> >> perlにメモリが大量に使われ、無理っぽいかなっとおもってます。
> 
>   --checkpoint を利用すれば、メモリの使用量についてはある程度はなんと
> かなるかもしれません。
> 
>   しかし、対象ファイルがそれだけ大きいとなると、例えばインデックスファ
> イルの大きさが OS の上限ご越えてしまうような場合も考えられます。

5000万ファイルとなると,NMZ.field.summary は 10GB ほどになるんじゃ
ないかと思います。すると,NMZ.field.summary.i が 32bit-base だっ
たら破綻するんじゃないでしょうか。

というより,ファイルリストがオンメモリな時点でアウトのような気が…
(50000000 * 40bytes = 2,000,000,000 = 2GB)

pack('N') は unsigned long なので,64-bit processor なら大丈夫?

15万ファイル(400MB程度)のインデクシングに 500MHz で 10時間ほど掛
かったので,5000万ファイルだと,300倍÷4=1ヶ月?(^_^;;;


―[ Tietew ]――――――――――――――――――――――――――――
Mail: tietew@xxxxxxxxxx / tietew@xxxxxxxx
Web : http://www.tietew.net/  (Tietew Windows Lab.)
PGP fingerprint: 26CB 71BB B595 09C4 0153  81C4 773C 963A D51B 8CAA