[Namazu-users-ja 1066] Re: gcnmz が非常な時間を要するようになった

Tadamasa Teranishi yw3t-trns @ asahi-net.or.jp
2008年 4月 7日 (月) 02:24:24 JST


寺西です。

野宮 賢 / NOMIYA Masaru wrote:
> 
> 寺西さん> 重要な情報が後から出てくるのはどうにかならないものかと思いますが...。
> 
> スミマセン.m(_ _)m
...
> 臼田さん> 最初の <html> の前にもメールヘッダのようなものがついていま せんか?
...
> メール・ヘッダーは付いています.

おいおい。ヘッダー付いてるの? それだと話が全く違うじゃん。

あなたも私も無駄なやり取りで多くの時間を浪費しただけで、誰も得しま
せんから、最初から正確な情報を出してくださいな。

> 小生>> 全て 1ページなら -h オプションを使えるのですが.
> 
> 寺西さん> それも正しい結果は得られません。無理やり過ぎます。
> 
> う〜む,出来ているように思えますが?

開示されている情報がデタラメなら答えも違ってきますわな。
 
> 寺西さん> html.pl は当然のことながら単一ページにしか対応していませんから。
> 
> いえ,html.pl でも出来ているように思えます.

思えるだけです。
まともに複数ページに対応した処理は含まれません。
たまたま、現状の html.pl がそれなりの結果を出しているだけに過ぎず、
対象外ゆえに将来動作が変わる可能性も高いです。
複数ページを処理させるような使い方はやめましょう。

で、文書ファイルが MHTML なら話はまた違ってきます。html.pl が複数
ページに対応していないのはそのままですが、別のところで個々のページを
切り出して html.pl で処理するので、問題は起こりません。

> 臼田さん> Internet Explorer上で作成されたウェブページのアーカイブ形式のよ うにも
> 臼田さん> 見えますが。
> 臼田さん> このファイルは html ではなく mhtml ファイルなのでは ないでしょうか?
> 
> ざっと調べましたところ,mhtml 形式と同じと思えます.

ざっとじゃなくてきちんと調べましょう。

> ご承知のように,Web 上の記事には全て著作権がありますので,現物をお示しする
> わけにはゆきません.m(_ _)m

現物でなくても、テスト用に中身を書き換えたファイルとか用意すること
ぐらい可能だろうと思いますが?

> 何か,そもそも namazu の対象外のファイル群のように思えてなりません.....

そう言ってますが? だから独自フィルタが必要だと...。

もっとも MHTML なら、多少対応しています。
で、本当はどんなファイルなんですか?

なお、MHTML は元々 Webページ全体の複数のファイルをまとめてメールで
送れるように考えられたものです。
IE ではこれを複数ページのアーカイブとして利用することができます。
(そんなわけで少なくとも昔は、Outlook Express の DLL で MHTML の処理
が行われていました。)

あなたが処理したファイルは本当に MHTML なのかきちんと確認しましょう。
-- 
=====================================================================
寺西 忠勝(TADAMASA TERANISHI)  yw3t-trns @ asahi-net.or.jp
http://www.asahi-net.or.jp/~yw3t-trns/index.htm
Key fingerprint =  474E 4D93 8E97 11F6 662D  8A42 17F5 52F4 10E7 D14E



Namazu-users-ja メーリングリストの案内