[Namazu-win32-users-ja 779] Re: 部分一致検索と単一単語検索

Tadamasa Teranishi yw3t-trns @ asahi-net.or.jp
2006年 10月 4日 (水) 20:47:43 JST


寺西です。

# 手元に Namazu が動く環境がないので、確認していませんが...。

shinoda.m6yc @ excite.co.jp wrote:
> 
> 部分一致検索「*ゴミ処理*」を使ったのですが、検索にヒットしません
> でした。
>  そこで、「ゴミ処理」という文字を単一単語検索で実行したところ、
> これはヒットしました。

分かち書きに何をお使いかはわかりませんが、おそらく KAKASI を使われて
いることと思います。

その場合、「ゴミ処理」で検索してもこれは単一単語検索にはなって
いません。

KAKASI ではカタカナから始まる単語は登録できませんので、NMZ.w には
「ゴミ処理」という単語は登録されておらず「ゴミ」「処理」に分かれて
登録されているものと思います。
その状態で、「ゴミ処理」で検索すると、
「ゴミ」「処理」の二語によるフレーズ検索(これは自動的にそうなり
ます。)として扱われ、ヒットしたのでしょう。
(検索結果を見れはフレーズ検索でヒットしたのかどうかが確認できます。)

そのため、

>  この条件の場合、なぜ部分一致検索でヒットしないのでしょうか。

部分一致検索である「*ゴミ処理*」ではヒットしなかった
のです。何故なら、「ゴミ」も「処理」も「*ゴミ処理*」の条件を満た
さないからです。

>  私の認識では、検索ヒット数は、
> 
> 部分一致検索 > 単一単語検索
> 
> と思っていたのですが、これは間違いでしょうか。

これは正しいのですが、

部分一致検索 > フレーズ検索

は成り立ちません。(というか成り立っていません。)

分かち書きを ChaSen や MeCab に変えて、辞書に「ゴミ処理」を登録すれば
おそらくは回避できるものと思います。

なお、「*ゴミ処理*」で検索した場合で見つからない場合には、内部で
「ゴミ処理」でも検索する(ただし、フレーズ検索で)ように修正した方が
良いのかもしれませんね。
--
=====================================================================
寺西 忠勝(TADAMASA TERANISHI)  yw3t-trns @ asahi-net.or.jp
http://www.asahi-net.or.jp/~yw3t-trns/index.htm
Key fingerprint =  474E 4D93 8E97 11F6 662D  8A42 17F5 52F4 10E7 D14E



Namazu-win32-users-ja メーリングリストの案内