[Namazu-devel-ja 1500] Re: mknmz のadd_ key( ), make_phrase_hash() の負荷軽減
Yukio USUDA
m6694ha392t @ asahi-net.or.jp
2007年 2月 22日 (木) 20:14:06 JST
臼田です
Tadamasa Teranishi wrote:
> Yukio USUDA wrote:
>
>> 実環境を想定したテストデータ準備がむずかしいのでとりあえず mknmz
>> に組み込んでメーリングリストの束等数千個単位のファイルをサンプルに
>> 比較をしてみようと考えています。
>>
>
> Windows でないと差は出にくいかもしれませんね。
> また、UNIX の場合は逆に遅くならないかチェックする必要があるかも
> しれません。
>
複数環境でのテストはしておこうと思っています。
大量データのテストで標準にできるサンプルデータがあるとよいですね。
とりあえず
「namazu-devel-ja.tar.gz
<http://www.namazu.org/ml/namazu-devel-ja.tar.gz> 4,136通
開発向けメイリングリスト: 2000-02-24 〜 2004-05-24」
を使って試すことにしています。
> しかし、それなら sub3 のような実装ではなくて、最初から DBM で作って
> 最後にインデックスとして吐き出すだけでも十分な気がします。
> sub3 方式+DBMの方が速いかもしれませんが、大量のデータを処理する場合は
> DBMだけでも現状よりはどう考えても速いでしょうし。
>
これは私も少し試したことがありますがだいぶ遅くなったので
それ以降試していません。
野首さんのレポートでも同様に遅くなる結果になっています。
http://www.namazu.org/trac-namazu/trac.cgi/wiki/Development
今回はハッシュの無名配列になっているものを DBM にうまく Tie
する方法がわからないので悩んでいます。
これも変数の構造が単純でないので DBM とのやりとりをすると
遅くなるかも知れません。
臼田幸生
Namazu-devel-ja メーリングリストの案内