[Namazu-win32-users-ja 779] Re: 部分一致検索と単一単語検索
Tadamasa Teranishi
yw3t-trns @ asahi-net.or.jp
2006年 10月 4日 (水) 20:47:43 JST
寺西です。
# 手元に Namazu が動く環境がないので、確認していませんが...。
shinoda.m6yc @ excite.co.jp wrote:
>
> 部分一致検索「*ゴミ処理*」を使ったのですが、検索にヒットしません
> でした。
> そこで、「ゴミ処理」という文字を単一単語検索で実行したところ、
> これはヒットしました。
分かち書きに何をお使いかはわかりませんが、おそらく KAKASI を使われて
いることと思います。
その場合、「ゴミ処理」で検索してもこれは単一単語検索にはなって
いません。
KAKASI ではカタカナから始まる単語は登録できませんので、NMZ.w には
「ゴミ処理」という単語は登録されておらず「ゴミ」「処理」に分かれて
登録されているものと思います。
その状態で、「ゴミ処理」で検索すると、
「ゴミ」「処理」の二語によるフレーズ検索(これは自動的にそうなり
ます。)として扱われ、ヒットしたのでしょう。
(検索結果を見れはフレーズ検索でヒットしたのかどうかが確認できます。)
そのため、
> この条件の場合、なぜ部分一致検索でヒットしないのでしょうか。
部分一致検索である「*ゴミ処理*」ではヒットしなかった
のです。何故なら、「ゴミ」も「処理」も「*ゴミ処理*」の条件を満た
さないからです。
> 私の認識では、検索ヒット数は、
>
> 部分一致検索 > 単一単語検索
>
> と思っていたのですが、これは間違いでしょうか。
これは正しいのですが、
部分一致検索 > フレーズ検索
は成り立ちません。(というか成り立っていません。)
分かち書きを ChaSen や MeCab に変えて、辞書に「ゴミ処理」を登録すれば
おそらくは回避できるものと思います。
なお、「*ゴミ処理*」で検索した場合で見つからない場合には、内部で
「ゴミ処理」でも検索する(ただし、フレーズ検索で)ように修正した方が
良いのかもしれませんね。
--
=====================================================================
寺西 忠勝(TADAMASA TERANISHI) yw3t-trns @ asahi-net.or.jp
http://www.asahi-net.or.jp/~yw3t-trns/index.htm
Key fingerprint = 474E 4D93 8E97 11F6 662D 8A42 17F5 52F4 10E7 D14E
Namazu-win32-users-ja メーリングリストの案内