[Namazu-users-ja 1064] Re: gcnmz が非常な時間を要するようになった

Yukio USUDA m6694ha392t @ asahi-net.or.jp
2008年 4月 7日 (月) 00:17:02 JST


臼田です

On 2008/04/06, at 23:43, 野宮 賢 / NOMIYA Masaru wrote:
> 小生の保有するファイル群の場合,</html>タグ以下を無視す 
> る,というFilterでは
> 駄目で,Content-Type: image/* なマルチパートを無視すると 
> いうFilterにしなけ
> ればならないようです.
> つまり,ファイルに拠っては,元記事が複数ページに亘る,即ち,
>
> <html>
> <body>
> 本文1
> </body>
> </html>
>
> <html>
> <body>
> 本文2
> </body>
> </html>
>
> Content-Type: image/*
> [...]
>
> という形式のものがあるからです.
>

Internet Explorer上で作成されたウェブページのアーカイブ形式のよ 
うにも
見えますが。
このファイルは html ではなく mhtml ファイルなのでは 
ないでしょうか?

それであれば mailnews.pl がそのまま対応していて  
base64 部分も
インデックス時に除去できます。
最初の <html> の前にもメールヘッダのようなものがついていま 
せんか?
mknmz 実行時にはどのようなファイルとして認識されていますか?

ファイルのフォーマットや何で作成されたファイルなのかということは
できるだけ具体な実例を示していただいた方が解決が早くなります。

臼田幸生



Namazu-users-ja メーリングリストの案内