namazu-ml(avocado)


[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]

Re: httpのLast-modifiedについて



岸です。

> > 過去に取ってきた html ファイルすべてのMD5 を保存しておいて、マッチング
> > を取ればいいと思います。
> 
>  これは
>  ・現在あるもののMD5をとる
>  ・もう一回全部取ってきてそれのMD5をとる
>  ・比較して違ってるものが更新されたもの
>  ということを繰り返すということですよね。やっぱり取ってくるのは全部
> 取ってこないといけないのですよね?

はい。
ちなみに、こんなのもあります。

Date: Thu, 19 Nov 1998 11:22:58 +0900
Posted: Thu, 19 Nov 1998 11:22:54 +0900
From: Koji Kishi <kis@xxxxxxxxxxxxxxxxx>
Reply-To: namazu@xxxxxxxxxxxxxxxxxxxxx
Subject: [namazu:01625] settime.pl
To: namazu@xxxxxxxxxxxxxxxxxxxxx
Message-Id: <199811190222.LAA24210@xxxxxxxxxxxxxxxxxxxxxxx>
X-ML-Name: namazu
X-Mail-Count: 01625
X-MLServer: fml [fml 2.1A#40]; post only from members
X-ML-Info: If you have a question, send a mail with the body
	"# help" (without quotes) to the address namazu-ctl@xxxxxxxxxxxxxxxxxxxxx
Mime-Version: 1.0 (generated by tm-edit 7.106)
X-UIDL: 6af85d2a7a000a408a1c58f71935bb25

岸です。少しは貢献しなくちゃ。

Last-Modified を返さない Web Server の場合、
ロボットでコンテンツを取得するとファイルの更新時間は取得した時間になります。

このスクリプトはあるディレクトリ以下を調べて、
前回実行時とファイルの内容に差がなければ、
ファイルの更新時間を前回実行時のものに戻す、というものです。

ロボットでコンテンツを取得した後、
mknmz を走らせる前にこのスクリプトを走らせると、
mknmz の時間短縮および、Date: フィールドがちょっとだけマシになります。

一回目だけ全部のファイルの md5 をとるので時間がかかります。
二回目以降は更新時間の変わったものだけ md5 をとります。

	:

--
ソニー株式会社 コーポレートISS ホームページ室	岸 康司
	<mailto:kis@xxxxxxxxxxxxxxxxx>