namazu-ml(avocado)


[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]

httpのLast-modifiedについて



はたけだ@ウチダといいます。はじまめして。

さてnamazuを使って検索システムを構築しようとしているのですが、データ
をリモートのサイトから収集する段階でちょっと問題があり教えて頂きたい
ことがあります。
(namazuに直接関係ない話しなので申し訳ないのですが....)。

現在wget-1.5.3を使って、あるリモートのサイトからhtmlデータを自動的に
収集しようとしています。wgetではhttpサーバから返されるヘッダ中の
Last-modifiedを使ってタイムスタンプして、変更された分のみを取得する
ことができるようなのですが、対象のサイトからはLast-modifiedが返って
きません。なにぶんhtmlだけでも30MBを超える量なので毎日全部取ってくる
わけにもいきません。

1.一般的に(?)Last-modifiedを返さないのはhttpサーバの実装としては
よくあることなのでしょうか?自分自身はApacheを使っているのですが、返
していると思います。他のサーバはどうなのでしょうか?

2.Last-modifiedが使えないとしたら、人間が眼で見て更新、追加分だけを
取ってくるという方法位しか思い付かないのですが、他に良いやり方があれ
ば教えてください。それともこういった運用はもはやwgetのようなものを使
うべきではないのでしょうか?みなさんのところではどうされてますでしょ
うか?


使用環境は、
FreeBSD2.2.7
Apache1.3.3
namazu1.3.0.0
wget1.5.3
です。

以上