namazu-ml(avocado)


[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]

mknmz の高速化



日本電気通信システムの山本です。

NKF.pm / KAKASI.pm とかで高速化の話題が年末から続いていましたが、
ディスクが溢れて、インデックスが壊れたので、別のアプローチを取ってみま
した。

kakasi が何となく遅そうだったので、wkf のコード判定のみオプションの結果を
使って、ascii だったら kakasi を通すのをスキップさせてみました。
インデックスの対象ファイル数が、8402 files あって、その殆どが ascii file
(6089 files) という特殊な事情が有ったのでオーバーヘッドは隠蔽されるたろう
との楽観的な期待によりました。

マシンは、128MBytes / SS20(71MHz) です。

結果(Namazu Version: 1.3.0.0 オリジナル)
[Base]
Date: Tue Dec 29 16:07:15 1998
Added   Files: 8,336 files
Deleted Files: 0 files
Updated Files: 0 files
Total   Files: 8,336 files
Size: 145,976,077 bytes
Keywords: 588,773 words
Wakati: /usr/local/bin/kakasi -ieuc -oeuc -Ea -w
Perl Version: 5.00404
Namazu Version: 1.3.0.0
System: sunos
Time: 24823 sec.

結果(Namazu Version: 1.3.0.0 改造)
[Base]
Date: Sat Jan  9 21:41:35 1999
Added   Files: 8,402 files
Deleted Files: 0 files
Updated Files: 0 files
Total   Files: 8,402 files
Size: 151,664,615 bytes
Keywords: 593,145 words
Wakati: /usr/local/bin/kakasi -ieuc -oeuc -Ea -w
Perl Version: 5.00404
Namazu Version: 1.3.0.0
System: sunos
Time: 26019 sec.

インデックスしたファイル数が違うので Time を Total Files で割ってみると
24823/8336=2.98
26019/8402=3.10

と、悪くなっていますねぇ????
一部の人には悪くないアイデアだと思ったのですが。。。
というわけで、パッチは付けません。

--

やまもと とおる@日本電気通信システム
#今月の味覚:たい ぶり むつ 白魚 なまこ はまぐり かき ひらめ 湯とうふ