namazu-ml(ring)


[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]

Addtional score.



www.jp.FreeBSD.ORG でFreeBSD関連のメーリングリストの検索を担
当しているまえだといいます。はじめまして。

namazuは出た当時から www.jp.FreeBSD.ORG で使わせて頂いている
のですが、先日ようやくメーリングリストに入りました。:-)

www.jp.FreeBSD.ORG では現在10万件くらいのメールから namazu 
を使って検索を行なっているのですが、さすがにこの量になってく
ると、(特に初心者の)ユーザが自分の欲しい情報を見つけるのは難
しいのではないかと思います。

いくら10万件あるといっても、その中には有益な情報もあれば、
MUAの操作ミスでながれてしまったメールもあるわけで、そういう
どうでもいいメールがスコアが高くて先頭の方に出てきてしまうこ
とがあります。

そこで、なんとかそういうメールのスコアを下げることができない
かなぁと考えた結果、計算されたスコアに対して、そのメールが持っ
ている付加的なスコアを加算(もしくは減算)したらどうかと考えま
した。

方法としてはこうです。

1. ユーザがmailを見るページに、読者投稿用のformをつける。そ
のメールを見た人が、この情報は有益だと思ったらスコアアップ用
のqueryを投げる。このメールはあまり役にたたないと思ったら、
スコアダウン用のqueryを投げる。

2. cronか何かで読者投稿をnamazu.cgiで読み込み可能なスコアファ
イルに変換する。

3. namazu.cgi実行時にその付加的なスコアファイルを読んで、計
算したスコアに加算する。

4. namazu.cgiがスコアをソート

要は、ユーザの手を借りてより検索のヒット率をあげようというこ
とです。

とりあえず、namazu.cgi 側にNMZ.asというファイルを読み込ませ、
スコアに反映させる部分の組み込みは終りました。これは必要であ
ればパッチ(というほどのものでもないですが)を流します。

で、そのNMZ.asの書式は、扱いやすいようにNMZ.iiと同じように

    [文書ID1の付加的スコア][文書ID2の付加的スコア]
    [文書ID3の付加的スコア]....

という形式にしました。

この後、NMZ.asを作らなければいけないんですが、どうやったら
indexされたURIから文書IDを得ることができるかという部分でつま
づいていてしまいました。

jp.FreeBSD.ORG 専用にカスタマイズしてしまうのは簡単なんです
が、できるだけ汎用的に作りたいですし、またフィードバックもし
たいと思うので、こちらに投げた次第です。

で、まずお聞きしたいのですが、こういった取り組みは今までに行
なわれているんでしょうか? もっと良い方法があればそちらに乗り
移りたいと思います。

また、indexされたURI(URLでもいいですし、ファイルのパスでも良
いのですが)から文書IDを得る方法というのはあるのでしょうか?

-- 
Yukinori Maeda                                    yuki@xxxxxxx