namazu-ml(ring)


[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]

Re: mknmz -e オプション



"imagine/Shimizu Nariaki" <imagine@xxxxxxxxxxxxxxxxxxxxxxxxxx> wrote:

>少し気になった部分が見つかりました。 htmlで

すみません。僕が使っていない機能はつい動作確認を怠ってしまい
ます。


>/usr/local/apache/share/htdocs/robots.txt does not exists at
>/usr/local/share/namazu/filter/html.pl line 299.
>
>と言うようなメッセージが最初に表示されます。

これは気にしなくていいです。 mknmzrc の $conf::ROBOTS_TXT で
設定された場所に robots.txt が存在しないと出力されます。


><meta name="robots" content="noindex"> を記述しているhtmlも
>インデックスの作成が行われてしまっています。

とりあえず 
<http://www.namazu.org/snapshot/namazu-2000-02-22.tar.gz>
を使えば解決するはずです。

が、 /robots.txt はきちんと処理できるか試していません。 
.htaccess を扱う --htaccess もできれば廃止したいところです。
mknmz で処理するのはちょっとやりすぎな気がします。

対象ファイルを限定するなら find を使えばいいです。例:

  % find /foo -name '*.html' | grep -v /secret/ > target
  % mknmz -F target

あるいは:

  % find /foo -name '*.html' | grep -v /secret/ | mknmz -F-

# 裏技っぽいですが -F- を指定すると対象ファイルのリストを標
# 準入力から読み込みます。 perl の open の仕様です。

それから、2.0 の mknmz なら

  % mknmz /foo /bar /baz

と対象ディレクトリを複数同時に指定することが可能です。

強い反対がなければ --htaccess および /robots.txt の処理は廃
止したいと思います。まさに creeping featurism の状態なので。

# 本当は <meta name="robots" content="noindex"> についても廃
# 止した方がすっきりするのだけど、これは残した方がいいかな。
# find で除外するのは難しいので。あ、
# % find /foo -type f | xargs grep -lv '<meta ...>' | mknmz -F-
# とする手があるか。ちょっとややこしいけど。

-- Satoru Takabayashi