[Namazu-devel-ja 1496] Re: mknmz のadd_ key( ), make_phrase_hash() の負荷軽減
Yukio USUDA
m6694ha392t @ asahi-net.or.jp
2007年 2月 22日 (木) 07:46:16 JST
臼田です
On 2007/02/22, at 1:19, Tadamasa Teranishi wrote:
>
> そう考えると、「もう少し実際に使うデータやデータフォーマットに
> 合わせ
> たものでテスト」というのは、結構大変かもしれません。
実環境を想定したテストデータ準備がむずかしいのでとりあえず mknmz
に組み込んでメーリングリストの束等数千個単位のファイルをサンプルに
比較をしてみようと考えています。
700個程度のファイルで試した場合は違いはでませんでした。
>
> ところで、ガベージコレクションはともかく、
> $ON_MEMORY_MAX に達した
> 時点での書き出しですが、これは改良することによって、大幅に速度
> 向上
> が期待できます。
> なので、どちらかといえば、そっちの方に関心があるのです
> が...。
>
> 具体的には、テンポラリに書き出したものを読み込んで、また書き出
> すと
> いう無駄なことをやっています。
> これをやめて毎回書き出しのみを行い、最後にマージ処理を行うとい
> うの
> が良いと思います。これだと重複して書き込み/読み出しする
> 必要がなく
> なりますから。
sub3のような実装にしておいて、仮置き先の配列に DBM を使え
るように
してはどうかと考えています。速度低下がひどくなくてメモリ消費が
抑えられるのであれば $ON_MEMORY_MAX 処理に変えることができ
るかも
しれません。
臼田幸生
Namazu-devel-ja メーリングリストの案内