Namazu-users-ja(旧)


[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]

wget に関する質問



木部@松下電工です。

Namazu の ML で wget に関する質問をして申し訳ございません。
現在、wget1.7 で自社内の他サーバの HTML を取得して Namazu でインデックス化を
試みています。
あるサーバ(aaa.mew.co.jp)にあるコンテンツのみで構わないので、下記コマンド
にてコンテンツ取得を試みています。

# wget -r -l 0 -A *html*,*jsp*,*cgi* -Daaa.mew.co.jp http://aaa.mew.co.jp

上記コマンドだとコンテンツの中で

<A HREF="http://bbb.mew.com/">別サーバ</A>

と記載があった場合は、無視してくれるのですが、CGI経由で bbb.mew.com へリンク
している場合は、無視してくれず、http://bbb.mew.com/ のトップページだけを
取得しようとしてしまいます。
wget を実行している端末と bbb.mew.com が会話できれば問題ないのですが、会話
できないゾーンにあった場合、

bbb.mew.com:80 に接続しています...

の表示でストップしてしまいます。
-t オプションを指定してリトライ回数を指定したり、-T オプションでタイムアウト
時間を指定しても、上記表示から変化なく次に進まない状況に陥ってしまいます。

私の設定がおかしいのだとは思うのですが、何か良い方法はありますでしょうか?
CGI経由でも他サーバを見に行かないようにできればベストなのですが・・・。