namazu-ml(avocado)


[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]

Re: httpのLast-modifiedについて



黒田です。

wgetをつかって880万URLの検索エンジンを作成しています。

> 現在wget-1.5.3を使って、あるリモートのサイトからhtmlデータを自動的に
> 収集しようとしています。wgetではhttpサーバから返されるヘッダ中の
> Last-modifiedを使ってタイムスタンプして、変更された分のみを取得する
> ことができるようなのですが、対象のサイトからはLast-modifiedが返って
> きません。なにぶんhtmlだけでも30MBを超える量なので毎日全部取ってくる
> わけにもいきません。

具体的なサイト名がわかるともう少しなにかできそうな気がします。
どのようなデータがあるのでしょうか?
わりと困ったのが、遺伝学関係のデータベースとデジタルカメラのアル
バムのHTMLファイルですね。ほぼ自動的に生成されているので大量にファ
イルが発生していました。

僕が気をつけているのは、wgetは無意味にリンクをたどってデータが増
える時があるので、漢字URLをたどらないよう改造し、シンボリックリ
ンクによるループもたどらないようにしてCGIもたどらないように改造しました。


> 1.一般的に(?)Last-modifiedを返さないのはhttpサーバの実装としては
> よくあることなのでしょうか?自分自身はApacheを使っているのですが、返
> していると思います。他のサーバはどうなのでしょうか?

わりとよくあるとおもいます。何パーセントかははかったことがありません。
Last-modifiedを使ってもそれほど収集速度は速くならないと思います。
せいぜい2倍くらいでしょうか

> 2.Last-modifiedが使えないとしたら、人間が眼で見て更新、追加分だけを
> 取ってくるという方法位しか思い付かないのですが、他に良いやり方があれ
> ば教えてください。それともこういった運用はもはやwgetのようなものを使
> うべきではないのでしょうか?みなさんのところではどうされてますでしょ
> うか?

ディレクトリによって更新頻度が変わると思うのでそれで制限をかけてみるとか

---------------------------------------------------------
Yosuke Kuroda  yosuke@xxxxxxxx 
Manager of search engine Ringring http://www.kuro.net/.
検索エンジンRingring http://www.kuro.net/ 運用管理者