[Namazu-users-ja 781] Re: subjectのMLシーケンス番号の検索について

isobetti @ isokiti.tv isobetti @ isokiti.tv
2006年 6月 29日 (木) 23:28:06 JST


こんばんは、磯辺です。

On Thu, Jun 29, 2006 at 10:10:08PM +0900, Tadamasa Teranishi wrote:
> 寺西です。
> 
> isobetti @ isokiti.tv wrote:
> > 
> > Subject: [HOGE:00003] てすとです。
> > 
> > のような形のMLのシーケンスを検索するとき、
> > 00003
> > で検索すると、HITしません。
> 
> 仕様です。
> 
> > +subject:00003
> > で検索すると、ちゃんとHITします。
> 
> ん〜。HIT しないのが正解だったような気がします。
> 
> > で、自分が知りたいのは、
> > 1. なぜ検索したナンバーがずれてしまうのか。。
> > 2. こういう現象を経験された方はいらっしゃるか。
> > 3. なぜ00003のように単純に検索したときにHITしないのか。
> 
> 仕様です。
> まず、通常検索は本文を検索対象とするためです。つまり、タイトルは
> 検索対象外となります。
> 
そうだったのですか。。
MLシーケンスでクエリをかけるニーズはかなり
あるので、それはちょっと困りました;;

> 次にタイトルのうち、[HOGE:00003] の部分は削除されて NMZ.field.subject
> に登録されます。
> このため、+subject:00003 では検索されないのが正解のはずです。
> 
> > 特に3については、他のnamazu検索システムを使ったサイト
> > ではちゃんと使えるのを確認してます。
> 
> 具体的にはどこのサイトなのでしょう。
> それは MHonArc + Namazu なのでしょうか?
> 
> MHonArc で生成した HTML の BODY 部分にタイトルが含まれているのでは
> ないでしょうか?
> 
私が検索してみたサイトは、
http://ns1.php.gr.jp/mailman/namazu.cgi
php-usersです。

これがMHonArcかは定かではありませんが、MHonArcなら確かに
BODYの下に<h1></h1>でSubjectが書いてあると思います。

ただ、検索でHITしたSubjectのリンクのシーケンスのところが
赤くなってHITしたことをアピールしてました。

namazuのサイトで検索したときはHITするときとしないときが
ありましたけど、817はHITしました。

> > それに、
> > Subjectの[シーケンス:番号] 件名
> > のうち、番号のみがHITしてくれないのです。。
> 
> 先にしめした仕様によるものです。
> 
> > あと1についてですが、MHonArc(mlist2html)を使って
> > html化したのですが、一部生成が失敗して虫食い
> > 状態になってます。
> > 例えばmsg00001〜msg00010のうち、msg00009が抜けて
> > いるとか。
> > でも、検索でずれ始めるのはシーケンス710番くらいからで、
> > その辺で確かに虫食いは起きていますが、もっと前でも
> > 虫食いは発生してます。
> > それに、たとえMLが歯抜けになっていても、indexの構築
> > には問題はないとおもうんですが、どうでしょう。
> 
> この辺りの話は nkf のバグとか、(SPAM とかで)タイトルに妙な文字が
> 含まれているとかで、インデックスが壊れてしまっているという可能性
> もあります。
> 
たしかにSPAMはかなりきています。。

> 簡単なテストは gcnmz 実行後、
> 
> $ cat NMZ.status
> 
> で表示される files の数と
> 
> $ wc NMZ.field.subject
> 
> の数が一致するかどうかで判定できます。
> 
なるほど。やってみます。

> > ■環境
> > OS: SunOS 5.8(sparc)
> > Namazu: 2.0.16
> > perl: 5.8.7
> > gcc: 3.4.2
> > nkf: Network Kanji Filter Version 2.0 (4/0401/Shinji Kono)
> > Apache: 2.0.55(パッケージバージョン)
> 
すみません、自分もMHonArc(2.6.16)です。

> nkf のバージョンを 2.0.6 に上げてインデックスを作り直しましょう。

はい、明日対応の上でご報告します。

よろしくお願いいたします。

-- 
isobetti @ isokiti.tv

> -- 
> =====================================================================
> 寺西 忠勝(TADAMASA TERANISHI)  yw3t-trns @ asahi-net.or.jp
> http://www.asahi-net.or.jp/~yw3t-trns/index.htm
> Key fingerprint =  474E 4D93 8E97 11F6 662D  8A42 17F5 52F4 10E7 D14E
> 
> _______________________________________________
> Namazu-users-ja mailing list
> Namazu-users-ja @ namazu.org
> http://www.namazu.org/cgi-bin/mailman/listinfo/namazu-users-ja



Namazu-users-ja メーリングリストの案内