[Namazu-users-ja 783] Re: subjectのMLシーケンス番号の検索について

Tadamasa Teranishi yw3t-trns @ asahi-net.or.jp
2006年 6月 29日 (木) 23:54:56 JST


寺西です。

isobetti @ isokiti.tv wrote:
> 
> そうだったのですか。。
> MLシーケンスでクエリをかけるニーズはかなり
> あるので、それはちょっと困りました;;

まず、[HOGE:000001] というのがタイトルに付くのは日本のMLでは一般的
ですが、ワールドワイドでは一般的というわけではないそうです。

fml を用いた ML では古くから使われていますけどね。

> > 次にタイトルのうち、[HOGE:00003] の部分は削除されて NMZ.field.subject
> > に登録されます。
> > このため、+subject:00003 では検索されないのが正解のはずです。

これを検索できるようにすると、HOGE で検索すると、全部ヒットする
といった弊害もあるわけで、カットされています。

通し番号で検索するニーズがあるとのことですが、これは Namazu を
わざわざ使わなくても、通し番号から対応する HTML ファイルの URL は
特定できるのではないかと思いますが、いかがでしょう。

過去 Namazu のメーリングリストでは、リダイレクションで実現してい
ました。(現在はどうなっているか忘れましたが。)
この時、先のメールにあった「msg00009が抜けている」といったことは
あるので、番号の対応づけはしないといけませんが。

> > > 特に3については、他のnamazu検索システムを使ったサイト
> > > ではちゃんと使えるのを確認してます。
> >
> > 具体的にはどこのサイトなのでしょう。
> > それは MHonArc + Namazu なのでしょうか?
...
> 私が検索してみたサイトは、
> http://ns1.php.gr.jp/mailman/namazu.cgi
> php-usersです。

MHonArc ではなく、MailMan + pipermail ですね。
しかも Namazu のバージョンが 2.0.5 という論外なバージョンです。
# 本当に 2.0.5 を使っているのかどうかは分かりませんけど。

> > MHonArc で生成した HTML の BODY 部分にタイトルが含まれているのでは
> > ないでしょうか?
> > 
> これがMHonArcかは定かではありませんが、MHonArcなら確かに
> BODYの下に<h1></h1>でSubjectが書いてあると思います。

先のサイトは Pipermail で作成された HTML です。しかも、Namazu 2.0.16
付属の pipermail.pl フィルタを用いて作成されたものではないので、
検索されたということのようです。

# PHP-dev を PHP-dev で検索すると全件ヒットしてますしね。
 
> ただ、検索でHITしたSubjectのリンクのシーケンスのところが
> 赤くなってHITしたことをアピールしてました。

これはここを検索対象として HIT したというように見えますが、実際には
関係ありません。
検索で見つかった文書の中で、要約、タイトル、著者、etc... に
検索文字列があれば赤く強調表示されるだけです。

> namazuのサイトで検索したときはHITするときとしないときが
> ありましたけど、817はHITしました。

何となくこれはバグのような気がします。

なお、MHonARC で[HOGE:00003] の部分を削除しないように mhonarc.pl 
を書き換えて使うということはできますよ。
その前に、nkf のバージョンアップとインデックスの再構築をして、
検索結果とタイトルがずれないようにする必要はありますが。
-- 
=====================================================================
寺西 忠勝(TADAMASA TERANISHI)  yw3t-trns @ asahi-net.or.jp
http://www.asahi-net.or.jp/~yw3t-trns/index.htm
Key fingerprint =  474E 4D93 8E97 11F6 662D  8A42 17F5 52F4 10E7 D14E




Namazu-users-ja メーリングリストの案内