[Namazu-users-ja 793] Re: subjectのMLシーケンス番号の検索について

isobetti @ isokiti.tv isobetti @ isokiti.tv
2006年 6月 30日 (金) 21:51:01 JST


こんばんわ、いそべです。

On Thu, Jun 29, 2006 at 11:54:56PM +0900, Tadamasa Teranishi wrote:
> 寺西です。
> 
> isobetti @ isokiti.tv wrote:
> > 
> > そうだったのですか。。
> > MLシーケンスでクエリをかけるニーズはかなり
> > あるので、それはちょっと困りました;;
> 
> まず、[HOGE:000001] というのがタイトルに付くのは日本のMLでは一般的
> ですが、ワールドワイドでは一般的というわけではないそうです。
> 
> fml を用いた ML では古くから使われていますけどね。
> 
そうでしたか。
業務上のやり取りではかなり便利なので知らない外国の人にも教えてあげたいですね。

> > > 次にタイトルのうち、[HOGE:00003] の部分は削除されて NMZ.field.subject
> > > に登録されます。
> > > このため、+subject:00003 では検索されないのが正解のはずです。
> 
> これを検索できるようにすると、HOGE で検索すると、全部ヒットする
> といった弊害もあるわけで、カットされています。
> 
> 通し番号で検索するニーズがあるとのことですが、これは Namazu を
> わざわざ使わなくても、通し番号から対応する HTML ファイルの URL は
> 特定できるのではないかと思いますが、いかがでしょう。
> 
はい、ごもっともです。
基本的に過去の対応を遠い未来の人が見るため用ですから、
シーケンスはほとんど必要ないと思ってます。
ただ、過去の集計ログとの突合せなどで使う場合もあるようです。

mhonarcをカスタマイズするほどのスキルと時間がないので
本文末尾にシーケンスを突っ込むスクリプトを組んで、
それをmhonarcに渡すようにしました。
月曜日に確認することになりますが、おそらくこれでシーケンスの
検索は出来るようになっているかと思います。

> 過去 Namazu のメーリングリストでは、リダイレクションで実現してい
> ました。(現在はどうなっているか忘れましたが。)
> この時、先のメールにあった「msg00009が抜けている」といったことは
> あるので、番号の対応づけはしないといけませんが。
> 
> > > > 特に3については、他のnamazu検索システムを使ったサイト
> > > > ではちゃんと使えるのを確認してます。
> > >
> > > 具体的にはどこのサイトなのでしょう。
> > > それは MHonArc + Namazu なのでしょうか?
> ...
> > 私が検索してみたサイトは、
> > http://ns1.php.gr.jp/mailman/namazu.cgi
> > php-usersです。
> 
> MHonArc ではなく、MailMan + pipermail ですね。
> しかも Namazu のバージョンが 2.0.5 という論外なバージョンです。
> # 本当に 2.0.5 を使っているのかどうかは分かりませんけど。
> 
pipermailですか。
初めて知りました。。

> > > MHonArc で生成した HTML の BODY 部分にタイトルが含まれているのでは
> > > ないでしょうか?
> > > 
> > これがMHonArcかは定かではありませんが、MHonArcなら確かに
> > BODYの下に<h1></h1>でSubjectが書いてあると思います。
> 
> 先のサイトは Pipermail で作成された HTML です。しかも、Namazu 2.0.16
> 付属の pipermail.pl フィルタを用いて作成されたものではないので、
> 検索されたということのようです。
> 
> # PHP-dev を PHP-dev で検索すると全件ヒットしてますしね。
>  
> > ただ、検索でHITしたSubjectのリンクのシーケンスのところが
> > 赤くなってHITしたことをアピールしてました。
> 
> これはここを検索対象として HIT したというように見えますが、実際には
> 関係ありません。
> 検索で見つかった文書の中で、要約、タイトル、著者、etc... に
> 検索文字列があれば赤く強調表示されるだけです。
> 
なるほど、理解できました。

> > namazuのサイトで検索したときはHITするときとしないときが
> > ありましたけど、817はHITしました。
> 
> 何となくこれはバグのような気がします。
> 
> なお、MHonARC で[HOGE:00003] の部分を削除しないように mhonarc.pl 
> を書き換えて使うということはできますよ。
> その前に、nkf のバージョンアップとインデックスの再構築をして、
> 検索結果とタイトルがずれないようにする必要はありますが。

この点はさきほど書いた形で対処しました。

ただ、nkf2.6に上げてhtmlを再構築し、indexも再構築したのですが、
結果は変わりませんでした。あいかわらずhtml生成に失敗してるファイルも
いくつかありましたし。
あと、NMZ.statusのfile数と、NMZ.field.subjectの行数もぴったりでした。

しかし、htmlをいったん全部削除したつもりでしたが、トップディレクトリ
に生成されていた.mhonarc.dbを消し忘れていたため、これが原因なのかも
しれません。

ということでメールが大量にあるため結果は月曜日に持ち越しと
なりました。

非常に参考になるお話、どうもありがとうございました。
またご報告します。

よろしくお願いいたします。

-- 
isobetti @ isokiti.tv

> -- 
> =====================================================================
> 寺西 忠勝(TADAMASA TERANISHI)  yw3t-trns @ asahi-net.or.jp
> http://www.asahi-net.or.jp/~yw3t-trns/index.htm
> Key fingerprint =  474E 4D93 8E97 11F6 662D  8A42 17F5 52F4 10E7 D14E
> 
> _______________________________________________
> Namazu-users-ja mailing list
> Namazu-users-ja @ namazu.org
> http://www.namazu.org/cgi-bin/mailman/listinfo/namazu-users-ja



Namazu-users-ja メーリングリストの案内