[Namazu-users-ja 559] フレーズ検索の精度についての質問

中辻真 softassnow.warminside @ gmail.com
2005年 11月 15日 (火) 12:01:46 JST


皆様,おはようございます.

このたびメーリングリストに参加させて頂きました
中山 真と申します.
以後,宜しくお願い致します.

namazuのフレーズ検索の精度に関して,質問したく存じます.

現在,Fedora Core 4上で,namazu 2.0.14を用い,
フレーズ検索をしているのですが,どうもいい精度を得ることができません.

例えば,jazz歌手のチャールズ・ブラウンをターミナル上からフレーズ検索しますと,
以下のような結果が得られるのですが,実際,チャールズ・ブラウンという文字列
がでてくるのは,そのうち2件だけです.

チャールズ・M・シュルツとか,ジャッキー・ブラウンなどといった人たちが,
誤ってでてくることが多く,(同じ文書中にブラウンとチャールズがあると
アンド検索してでてきてしまう)困っています.

今,私がnamazuを用い実装しようと思っているソフトでは検索結果が80%
以上はあってほしいと思っていますので,どうすればこの問題を回避できる
だろうか?と悩んでいます.

もしかして,"・"という文字が問題をひきおこしているのだろうかとも思うのですが,
チャールズ ブラウン以外にチャールズ・ブラウンも検索してほしいので,"・"を入れ
ています.
またオープンソースを利用したく思いますので,namazuを用いています.
googleなどの検索エンジンでは,
チャールズ-ブラウンとして,"-"をはさめば,
チャールズ・ブラウンもチャールズブラウンもチャールズ ブラウンも検索結果
として返してくれ,フレーズ検索としての精度も高いので,namazuにも
そういう機能があるのではないかと思っています.
(ですが,調べたところ今のところ発見できていませんので,
皆様にお聞きしようと思いました.)

以上,ながながとなりましたが,フレーズ検索を精度高く実行する方法など
ありましたら,どうぞご教示お願いいたしたく存じます.

宜しくお願い致します.

###以下,チャールズ・ブラウンの検索例です.#######


$ namazu "{チャールズ・ブラウン}" /home/namazu/index
検索結果

参考ヒット数:  {  [ チャールズ: 565 ]  [ ・: 302631 ]  [ ブラウン: 1450 ]  :: 9 }

検索式にマッチする 9 個の文書が見つかりました。

/home/testuser_1/13061/924953.txt


/home/testuser_0/6480/714219.txt


/home/testuser_2/16772/1004803.txt

・

・

・

・


中山 真



Namazu-users-ja メーリングリストの案内