namazu-dev(ring)


[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]

Re: $conf::EXCLUDE_REGEX question



masao@xxxxxxxxxx (Masao Takaku) wrote:

>mknmz の $conf::EXCLUDE_REGEX の動作について質問があります。
>
>この変数による設定を最近利用して思ったのですが、
>これによるファイルの読みとばしって、
>load_document() の後で、判定してますよね。
>これは、結構、無駄な動作なのでは? と思いました。

確かにそうですね。


>あと、この変数の実際の動作なんですが、
>実質的には、ファイルのURIに対しての正規表現の指定となってますが、
>ローカルのpathに対して指定するのと、どっちが良いんでしょうか?

ローカルの pathだと思います。


>実際のコードのコメントには、以下のように「Pathnames」となってますが…。
>〜〜
>	## Pathnames which match this regex will be excluded.
>	$EXCLUDE_REGEX = undef;
>〜〜
>もしも、pathnameに対してのものなら、
>find_target() 直後で判定すれば良いと思います。

はい。 wanted() 内で除外してしまえばいいと思います。
isexcluded() は robots.txt 専用にすればいいですね。

# 昨日、今日とちょっと風邪気味でつらいので、もしよければ、た
# かくさんの方で修正してもらえると助かります


>ついでに、別のコードの部分ですけど、
>「"is too a LARGE text! skipped."」
>	↓
>「is a too LARGE」ではないのでしょうか?
>     ^^^^^

ジーニアス英和辞典を引いたところ

| It is much 〜 hot a day for work. きょうは仕事をするにはあま
| りにも暑い《◆tooの強調にveryは不可》.  
| (snip)
| ◇[語法][too+形容詞+名詞] (1) 通例「too+形容詞+a+_名詞」の語
| 順をとるが...  a 〜 hot dayとすることもある.

と載っていました。is too LARGE a text がいいみたいです。この
部分だけ修正して commit しておきました。

# 電子辞書の情報はこちら :-)
# <http://cl.aist-nara.ac.jp/~satoru-t/SD-1999-09/>


>## 英語は苦手なので、自信はありませんが。

私も苦手です。 2年前よりは少しはましになったと思うけど…。で、
2年前につけた intro.html の title は

  <title>Namazu the full text retrieval search system</title>
                ^^^

となっています。ここは a の方が好ましい気がします。v2.0 の文
書では a にしておこう。:-)

ほかにもおかしな点があれば指摘・修正してくださいませ。

# doc/en/*.html は英語に堪能な人に協力してもらって全面的に書
# き直すのでしばらく見ないふりをしてくださいませ。今の文章は
# かなりひどいので。doc/ja/*.html の文章も結構ひどいなあ…。
# (今の自分の好みではない)

-- Satoru Takabayashi