[Namazu-users-ja 1057] Re: gcnmz が非常な時間を要するようになった

Tadamasa Teranishi yw3t-trns @ asahi-net.or.jp
2008年 4月 6日 (日) 19:17:30 JST


寺西です。

野宮 賢 / NOMIYA Masaru wrote:
> 
> 寺西さん> また、どういった理由で -K オプションで base64 なパートが無視される
> 寺西さん> と思ったのでしょう。
> 
> base64のパートには記号が多いということからの全くの勘違いでした.

-K オプションは、全角文字と、半角のアルファベット、数字以外の文字を
削除するオプションに過ぎません。
(内部で、全角文字の記号の一部は半角文字に変換しますが、上記の条件は
変換後に適用されます。)

Base64 の記号は、普通は '+', '-', '=' の三種類ですので、これらの文字が
削除されるだけです。

> 小生>> 3. インデックス作成範囲を指定する形式(これは,
> 小生>>    http://www.namazu.org/ml/namazu-users-ja/msg03573.html で廣瀬さんがお示
> 小生>>    しになっている方法に従い,html.pl のパッチを当て,.mknmzrc に
> 小生>>
> 小生>>         $SUMMARY_PAT = "<body>(.*?)</body>";
> 小生>>
> 小生>>    を加えて,
> 
> 寺西さん> 応用しようとしているのでしょうが、元のパッチの意味を理解せずに
> 寺西さん> やっているために、意図した通りには動いていないでしょう。
...
> ようやく,意味を了解するに至りました.
> あくまで,Summary なんですね.

summary であることはご理解いただいたようですが、全体の意味はまだ理解
されていないような...。

> ともあれ,インデックスが損傷しているのでは(思い当たる節があります)と,考

インデックスは新規に作り直していますよね?
インデックスの更新では、Base64 のゴミ文字列で大きくなったインデックス
は、その文書が更新されない限り、大きいままですよ。

> その際,廣瀬さんがお示しになった html.pl.dif を当てると共に,.mknmzrc に
> 
>   $SUMMARY_PAT = "<body>(.*?)</body>";

何のためにこれをやったのでしょう。
パッチの意味と、あなたが手を加えた変更によってどのような処理を行うこと
になるのか、本当にわかっているのでしょうか?

少なくとも gcnmz の時間の話と、</html> タグの後ろを削除しなければなら
ない話には、これは関係しませんが...。

> を加え,尚且つ, $ON_MEMORY_MAX の値を 50MB から 300MB に増やし,mknmz を
> 走らせ,床に就きました.今日の夕方位まで掛かるだろうと思っていましたが,何
> と,朝起きましたら終了しており,観ましたら,所要時間は6時間弱で,大変驚きま
> した.「$ON_MEMORY_MAX」は,今更ながら,「Namazuの豆知識」を参考にさせて戴
> きました.m(_ _)m

$ON_MEMORY_MAX は mknmz にしか影響しません(gcnmz には無関係)が、
マシンの実メモリとは直接関係ありませんので、必要ならばもっと大きな
値を設定しても構いません。実メモリ以上でも構いません。
# ただし、設定値を大きくすると消費メモリは多少なりとも増えますが。

この値は、処理する文書ファイルの総量で決めると良いでしょう。

> この上で gcnmz を走らせた結果に就いては,後日,改めて報告させて戴きます.

...ん〜。

 > ということです。ご自身で </html> タグの後ろを削除したものを mknmz 
 > に渡してください。
 > もちろん、そういう処理を html.pl に追加してもいいですが...。

ということをしないと意味がありませんけど?
-- 
=====================================================================
寺西 忠勝(TADAMASA TERANISHI)  yw3t-trns @ asahi-net.or.jp
http://www.asahi-net.or.jp/~yw3t-trns/index.htm
Key fingerprint =  474E 4D93 8E97 11F6 662D  8A42 17F5 52F4 10E7 D14E



Namazu-users-ja メーリングリストの案内