[Namazu-users-ja 1058] Re: gcnmz が非常な時間を要するようになった

野宮 賢 / NOMIYA Masaru nomiya @ galaxy.dti.ne.jp
2008年 4月 6日 (日) 19:52:59 JST


野宮です.

In the Message; 

  Subject    : [Namazu-users-ja 1057] Re: gcnmz が非常な時間を要するようになった
  Message-ID : <47F8A33A.2AED41F7 @ asahi-net.or.jp>
  Date & Time: Sun, 06 Apr 2008 19:17:30 +0900

[寺西さん] == Tadamasa Teranishi <yw3t-trns @ asahi-net.or.jp> has written:

小生>> base64のパートには記号が多いということからの全くの勘違いでした.

寺西さん> -K オプションは、全角文字と、半角のアルファベット、数字以外の文字を
寺西さん> 削除するオプションに過ぎません。
寺西さん> (内部で、全角文字の記号の一部は半角文字に変換しますが、上記の条件は
寺西さん> 変換後に適用されます。)

寺西さん> Base64 の記号は、普通は '+', '-', '=' の三種類ですので、これらの文字が
寺西さん> 削除されるだけです。

ん? '/' も記号ではないのでしょうか?
ま,そうだとしても大差ありませんが.

小生>> ようやく,意味を了解するに至りました.
小生>> あくまで,Summary なんですね.

寺西さん> summary であることはご理解いただいたようですが、全体の意味はまだ理解
寺西さん> されていないような...。

よく解りませんが?
廣瀬さんの方法でも,base64 なパートに含まれるアルファベットや数字がIndex作
成対象になる,とは思っていますが?

小生>> ともあれ,インデックスが損傷しているのでは(思い当たる節があります)と,考

寺西さん> インデックスは新規に作り直していますよね?
寺西さん> インデックスの更新では、Base64 のゴミ文字列で大きくなったインデックス
寺西さん> は、その文書が更新されない限り、大きいままですよ。

これは,力量の無さの悲しさ,として受け止めていますが.

小生>> その際,廣瀬さんがお示しになった html.pl.dif を当てると共に,.mknmzrc に
小生>> 
小生>>   $SUMMARY_PAT = "<body>(.*?)</body>";

寺西さん> 何のためにこれをやったのでしょう。
寺西さん> パッチの意味と、あなたが手を加えた変更によってどのような処理を行うこと
寺西さん> になるのか、本当にわかっているのでしょうか?

ちと解りませんが?
これをやらなくとも,NMZ.field.summary 等の作成の対象は,<body>と</body>の間
のものに限定される,という意味で仰っているのでしょうか? 
そういう気もしなくはないのですが.

寺西さん> 少なくとも gcnmz の時間の話と、</html> タグの後ろを削除しなければなら
寺西さん> ない話には、これは関係しませんが...。

はい,それは解っています.

寺西さん> $ON_MEMORY_MAX は mknmz にしか影響しません(gcnmz には無関係)が、
寺西さん> マシンの実メモリとは直接関係ありませんので、必要ならばもっと大きな
寺西さん> 値を設定しても構いません。実メモリ以上でも構いません。

$ON_MEMORY_MAX が mknmz にしか効かない,というのは承知しています.
それにしましても,$ON_MEMEORY_MAX の変更でこれ程の効果が現れるというのは,
驚きでした.

寺西さん> # ただし、設定値を大きくすると消費メモリは多少なりとも増えますが。

「Namazuの豆知識」を読むと,搭載メモリーの 1割 が目安かと思いましたが,そう
ではないのですね.

寺西さん> この値は、処理する文書ファイルの総量で決めると良いでしょう。

具体的に,文書ファイル総量とどのような兼ね合いで $ON_MEMORY_MAX を決めれば
良いのか,をお教え下さいませんか?
因みに,小生の現在の文書ファイル総量は,1.2GB です.

寺西さん>>> ということです。ご自身で </html> タグの後ろを削除したものを mknmz 
寺西さん>>> に渡してください。
寺西さん>>> もちろん、そういう処理を html.pl に追加してもいいですが...。

寺西さん> ということをしないと意味がありませんけど?

はい,そうしたいのは山々です,が,残念ながら,それ程のスキルがを持ち合わせ
ていません.(;_;)
gcnmz 所要時間の短縮化には,</html>タグの後部の削除が必須で,小生のやったこ
とは全くの的外れ,ということを仰りたいのですね.
それは,よ〜く解っています.

今一度 gcnmz を走らせ,それが膨大な時間を要するようであれば,小生の今の力量
では,毎晩 mknmz を走らせる方がベターという結論になる,とは思います.

---
  野宮  賢             mail-to: nomiya @ galaxy.dti.ne.jp
  
    「決して,道具になりさえすればよいから,理論的なことはどうでもよい,
    ということにはならない.」
                                                             --  森  毅 --


Namazu-users-ja メーリングリストの案内