[Namazu-users-ja 1056] Re: gcnmz が非常な時間を要するようになった

野宮 賢 / NOMIYA Masaru nomiya @ galaxy.dti.ne.jp
2008年 4月 6日 (日) 16:19:29 JST


野宮です.

In the Message; 

  Subject    : [Namazu-users-ja 1055] Re: gcnmz が非常な時間を要するようになった
  Message-ID : <47F790F4.4B69EDAB @ asahi-net.or.jp>
  Date & Time: Sat, 05 Apr 2008 23:47:16 +0900

[寺西さん] == Tadamasa Teranishi <yw3t-trns @ asahi-net.or.jp> has written:

寺西さん> これはテキストとして処理していた時と、HTML として処理した時との話です
寺西さん> ので、それらの比較をしないと意味がありません。

なるほど.
 
寺西さん> 基本的に HTML にマルチパートという概念はありません。

言われてみれば,確かに.^^;;

寺西さん> また、どういった理由で -K オプションで base64 なパートが無視される
寺西さん> と思ったのでしょう。

base64のパートには記号が多いということからの全くの勘違いでした.

小生>> 3. インデックス作成範囲を指定する形式(これは,
小生>>    http://www.namazu.org/ml/namazu-users-ja/msg03573.html で廣瀬さんがお示
小生>>    しになっている方法に従い,html.pl のパッチを当て,.mknmzrc に
小生>> 
小生>>         $SUMMARY_PAT = "<body>(.*?)</body>";
小生>> 
小生>>    を加えて,

寺西さん> 応用しようとしているのでしょうが、元のパッチの意味を理解せずに
寺西さん> やっているために、意図した通りには動いていないでしょう。

寺西さん> <body>
寺西さん> ここすべて(もちろんタグも含めて)が要約になっているはず。
寺西さん> </body 

寺西さん> です。

ようやく,意味を了解するに至りました.
あくまで,Summary なんですね.

寺西さん>>> よくわかりませんが、text/html 形式で取り込む前に、添付ファイルを削除
寺西さん>>> する処理を追加すれば良いのではないかと思います。

寺西さん> ということです。ご自身で </html> タグの後ろを削除したものを mknmz 
寺西さん> に渡してください。

と,いうことになりますね.

寺西さん> もちろん、そういう処理を html.pl に追加してもいいですが...。

やりたいのは山々ですが..... ^^;;;

ともあれ,インデックスが損傷しているのでは(思い当たる節があります)と,考
え,インデックスを再作成しました.
その際,廣瀬さんがお示しになった html.pl.dif を当てると共に,.mknmzrc に

  $SUMMARY_PAT = "<body>(.*?)</body>";

を加え,尚且つ, $ON_MEMORY_MAX の値を 50MB から 300MB に増やし,mknmz を
走らせ,床に就きました.今日の夕方位まで掛かるだろうと思っていましたが,何
と,朝起きましたら終了しており,観ましたら,所要時間は6時間弱で,大変驚きま
した.「$ON_MEMORY_MAX」は,今更ながら,「Namazuの豆知識」を参考にさせて戴
きました.m(_ _)m

この上で gcnmz を走らせた結果に就いては,後日,改めて報告させて戴きます.

---
  野宮  賢             mail-to: nomiya @ galaxy.dti.ne.jp
  
    「私たちが今日直面している化学物質の危険性に関する疑問に対し、通常の
     科学的な正確さをもって答えようとすれば、たぶんさらに数十年を要するで
     あろう。」                                      -- J. V. Rodricks --


Namazu-users-ja メーリングリストの案内