Namazu-users-ja(旧)


[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]

Re: ファイルの大きさでヒットが違う?



野田真樹です。
返事が遅れて申し訳ありません。

古川さんの指摘された

>「野田真樹」という一つの単語は存在しないので「野田」と「真樹」
>のフレーズ検索になるわけですが、namazu のフレーズ検索は、適合
>率 100% を目指したものではないのです。

>上の例では、「岡山」+「太郎」、「野田」+「次郎」などのフレーズ
>が、それぞれ 16bit のハッシュ値に変換されます。ハッシュですから、
>ある確率で衝突が起こります。

>また、ファイルが大きくなると、衝突する可能性が高くなります。

がわかりました。

1ファイルを分割して行うことにしました。

気がかりでした。ありがとうございました。