[Namazu-users-ja 1053] Re: gcnmz が非常な時間を要するようになった

Tadamasa Teranishi yw3t-trns @ asahi-net.or.jp
2008年 4月 4日 (金) 00:43:01 JST


寺西です。

野宮 賢 / NOMIYA Masaru wrote:
> 
> # mknmz -azEK  update ~/News.nmz ~/var/news
> 
> と,日々走らせています.( ~/var/news 配下には,凡そ 63.5万ファイルがあります).

インデックス分けたらどうでしょうか?
2つに分けると、通常、個々のインデックスの作成時間は1/2以下になります。
gcnmz も同様に個々の処理時間はそれぞれ 1/2 以下になり、トータル時間は
短縮されます。

また、-a を日常的に使うのはどうかと思いますよ。

> 考えられる原因は,従来,text/plain で取り込んでいたものを text/html 形式で
> 取り込むようにし,その多くのファイルが,
> 
> Content-Transfer-Encoding: base64
> Content-Disposition: inline
> Content-Type: image/jpeg
> Content-ID: <shimbun.inline.0.0.2000056020.20370762.20370762%news.japan.cnet.com>
> 
> /9j/4RmlRXhpZgAASUkqAAgAAAALAA4BAgAgAAAAkgAAAA8BAgAFAAAAsgAAABABAgAHAAAAuAAA
> [...]
> pvvt9asB8f3fxpoln//Z
> 
> という形式の添付ファイルを含むからでは?,と考えています.

まぁそうでしょう。

> (申し訳ありませんが,著作権の関係でファイルをお見せすることは出来ません

ならば、自力でなんとかしてくださいとしか言えません。
何せ、どんな形式のファイルなのかもわからないのでは、対応しようが
ありませんから。

> この base64 な添付ファイルを含むものが増えた為に時間が掛かるようになった,
> という理解は間違いでしょうか?

あまりにも情報が少ないので何ともいえませんが、その可能性が高い
のではないでしょうか?

たぶん、インデックスのサイズがその前後で随分変わったんではないかと
思いますよ。
 
> 何とか gcnmz に要する時間を短縮したいのですが,方策を思い付きません.

よくわかりませんが、text/html 形式で取り込む前に、添付ファイルを削除
する処理を追加すれば良いのではないかと思います。
そうすれば、インデックス作成時間も短縮されるでしょう。
-- 
=====================================================================
寺西 忠勝(TADAMASA TERANISHI)  yw3t-trns @ asahi-net.or.jp
http://www.asahi-net.or.jp/~yw3t-trns/index.htm
Key fingerprint =  474E 4D93 8E97 11F6 662D  8A42 17F5 52F4 10E7 D14E



Namazu-users-ja メーリングリストの案内