[Namazu-users-ja 779] Re: subjectのMLシーケンス番号の検索について

Tadamasa Teranishi yw3t-trns @ asahi-net.or.jp
2006年 6月 29日 (木) 22:10:08 JST


寺西です。

isobetti @ isokiti.tv wrote:
> 
> Subject: [HOGE:00003] てすとです。
> 
> のような形のMLのシーケンスを検索するとき、
> 00003
> で検索すると、HITしません。

仕様です。

> +subject:00003
> で検索すると、ちゃんとHITします。

ん〜。HIT しないのが正解だったような気がします。

> で、自分が知りたいのは、
> 1. なぜ検索したナンバーがずれてしまうのか。。
> 2. こういう現象を経験された方はいらっしゃるか。
> 3. なぜ00003のように単純に検索したときにHITしないのか。

仕様です。
まず、通常検索は本文を検索対象とするためです。つまり、タイトルは
検索対象外となります。

次にタイトルのうち、[HOGE:00003] の部分は削除されて NMZ.field.subject
に登録されます。
このため、+subject:00003 では検索されないのが正解のはずです。

> 特に3については、他のnamazu検索システムを使ったサイト
> ではちゃんと使えるのを確認してます。

具体的にはどこのサイトなのでしょう。
それは MHonArc + Namazu なのでしょうか?

MHonArc で生成した HTML の BODY 部分にタイトルが含まれているのでは
ないでしょうか?

> それに、
> Subjectの[シーケンス:番号] 件名
> のうち、番号のみがHITしてくれないのです。。

先にしめした仕様によるものです。

> あと1についてですが、MHonArc(mlist2html)を使って
> html化したのですが、一部生成が失敗して虫食い
> 状態になってます。
> 例えばmsg00001〜msg00010のうち、msg00009が抜けて
> いるとか。
> でも、検索でずれ始めるのはシーケンス710番くらいからで、
> その辺で確かに虫食いは起きていますが、もっと前でも
> 虫食いは発生してます。
> それに、たとえMLが歯抜けになっていても、indexの構築
> には問題はないとおもうんですが、どうでしょう。

この辺りの話は nkf のバグとか、(SPAM とかで)タイトルに妙な文字が
含まれているとかで、インデックスが壊れてしまっているという可能性
もあります。

簡単なテストは gcnmz 実行後、

$ cat NMZ.status

で表示される files の数と

$ wc NMZ.field.subject

の数が一致するかどうかで判定できます。

> ■環境
> OS: SunOS 5.8(sparc)
> Namazu: 2.0.16
> perl: 5.8.7
> gcc: 3.4.2
> nkf: Network Kanji Filter Version 2.0 (4/0401/Shinji Kono)
> Apache: 2.0.55(パッケージバージョン)

nkf のバージョンを 2.0.6 に上げてインデックスを作り直しましょう。
-- 
=====================================================================
寺西 忠勝(TADAMASA TERANISHI)  yw3t-trns @ asahi-net.or.jp
http://www.asahi-net.or.jp/~yw3t-trns/index.htm
Key fingerprint =  474E 4D93 8E97 11F6 662D  8A42 17F5 52F4 10E7 D14E




Namazu-users-ja メーリングリストの案内