Namazu-devel-ja(旧)


[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]

全角文字のフレーズ検索のバグ



寺西です。

フレーズ検索はほとんど使わないのですが、たまたまバグを見つけた
ので修正しました。(開発版)

全角文字のフレーズ検索を行うと正しく検索できません。

例えば http://www.namazu.org/ で {開発 環境} で検索すると、

References: { [ 開発: 51 ] [ : 0 ] [ : 0 ] [ 環境: 17 ] :: 0 } 

のような結果になります。真ん中に単語と誤認されたコードがあり、
これが 0 件のためヒットしません。

内部ではフレーズ検索の場合、単語と単語の間は '\t' で区切られる
ように処理されています。
半角文字の場合はうまく処理されているのですが、全角文字の場合
わかち書きによって、'\t' が複数個で区切られてしまっているようです。
その結果 2つ目以降の '\t' を単語と誤認しているようです。

本来ですと、わかち書きの部分を修正するべきところですが、
nmz/search.c (do_phrase_search) の単語を取り出す部分を
修正することで対応しました。
-- 
=====================================================================
寺西 忠勝(TADAMASA TERANISHI)  yw3t-trns@xxxxxxxxxxxxxxx
http://www.asahi-net.or.jp/~yw3t-trns/index.htm
Key fingerprint =  474E 4D93 8E97 11F6 662D  8A42 17F5 52F4 10E7 D14E