namazu-ml(avocado)


[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]

Re: mknmz's Order



すぎうらしろうです。

<199901311629.BAA11729@xxxxxxxxxxxxxxxxx>の記事において
私は書きました。

>> そして現在、私の本当の目的であるgnspoolでかき集めてきたネットニュ
>> ースの記事、220MByte、約85,000件をmknmzでindexを作っているのですが
>> 最初の1万件をぼーっと眺めていて、「だいたい2時間ちょいで全部終るか
>> な」と思ってからかれこれ3時間20分たった現在でも、まだ4万8000件しか
>> 処理できていません。

ようやくこの作業が終りました。作業時間は7時間です。先ほどはPentiumII
としか書きませんでしたが、PentiumII(100x4=400MHz)での結果です。
一番下にくっついているのは、tcshのtimeで計測した値です。

[Base]
Date: Mon Feb  1 05:28:05 1999
Added   Files: 84,976 files
Deleted Files: 0 files
Updated Files: 0 files
Total   Files: 84,976 files
Size: 186,705,758 bytes
Keywords: 1,538,816 words
Wakati: /usr/local/bin/kakasi -ieuc -oeuc -w
Perl Version: 5.00502
Namazu Version: 1.3.0.2
System: freebsd
Time: 25302 sec.
9583.265u 11163.660s 7:01:43.43 81.9%   580+-990k 182898+565392io 928pf+0w

出来上がったファイルでサイズか大きいもの上位5位は

-rw-r--r--  1 ssugiura  bin  138888994 Feb  1 05:26 NMZ.i
-rw-r--r--  1 ssugiura  bin   53419034 Feb  1 05:27 NMZ.f
-rw-r--r--  1 ssugiura  bin   52416904 Feb  1 05:27 NMZ.p
-rw-r--r--  1 ssugiura  bin   28089346 Feb  1 05:26 NMZ.w
-rw-r--r--  1 ssugiura  bin    6155264 Feb  1 05:26 NMZ.ii

で、そこのdyrectoryで`du`すると292MByteと、検索元のファイル群よりDISK
食っているのは御愛敬ですが、試しに`namazu`で"namazu"の検索を試みると、

Current List: 1 - 9
0.018u 0.000s 0:00.45 2.2%      160+440k 71+0io 8pf+0w

と、grepなんかと比較すると一瞬というスピードで返ってきて感動です。
indexを作っている時の動作をちょくちょく眺めていたところ、7万件を越え
た辺りからファイルへの書きだし書き戻しにかなり時間をとられるようにな
り8万件を越えるとかなりへろへろになってました。

これからは、日々のデータ追加、kakashiで使う辞書の追加並びにカスタマ
イズということになるのですが、mknmzでのデータ更新はどのぐらい時間が
かかるのだろう?
ちょっと心配。

--  
        すぎうらしろう                  E-mail  : sugiura@xxxxxxxxxxxx
                                        URL     : none
        [   If you want to talk with me, you MUST speak Japanese   ]