Namazu-users-ja(旧)


[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]

Re: 400G を indexing したいのですがアドバイスおねがいします。



>                                            千葉市中央区長洲
>                                                    藤原  誠
問題になっているのは一つの条件だけではなくて、いろいろあるはず
ですが、そのうちの一つということで書きます。

壷井さん> 32bit = 4,294,967,296

壷井さん> 42億書類までだめなのかな?という素人考えです。

書類の数ではなくて、検索語の数です。

こういう数字を挙げても、さほど意味がある訳ではないですが、
例えば僕の手元に次のようなものがあります。
110 k 書類で 1.4M 検索語です。(中身はメールです)
この 1.4M の方が 4G になるのはいつでしょうということで、
300 倍かな。ということは比例で考えれば 30M 書類。

Added Documents:     110,458
Size (bytes):        361,910,039
Total Documents:     110,458
Total Keywords:      1,460,587
Wakati:              module_kakasi -ieuc -oeuc -w
Time (sec):          71,859
File/Sec:            1.54
System:              netbsd
Perl:                5.006001
Namazu:              2.0.7pre3

From: 壷井 敏史 <tsuboi@xxxxxxxxxxxxxxxxxx>
Subject: 400G を indexing したいのですがアドバイスおねがいします。
Date: Mon, 15 Oct 2001 03:18:32 +0900
Message-ID: <3BC9D6F8.B1CB97F8@xxxxxxxxxxxxxxxxxx>

壷井さん> データサイズが全部で400Gあり、ファイル数が5000万ほどあります。

30M < 50M ということで。

http://www.namazu.org/ml/namazu-ring/msg00961.html
には
Total Files: 878,914 files
Size: 2,167,480,108 bytes
Total Keywords: 7,339,687 words
System: freebsd
Time: 79874 sec.

というのがありますが、これが今知られている最大のものだと
思っています。


  File      size     keywords   keywords/size
  ----      ----     --------   ------------
  870k      2.1G     7.4M       283           すぎうらさん
  110k       360M    1.4M       257           藤原
 50M      400G                                壷井さん

分割して少しやって見れば分ると思うのですが、やる前に
企画書を書く必要があるというようなことなのでしょうか。
---
(藤原)
http://www.ki.nu/software/namazu/tutorial/