Namazu-devel-ja(旧)


[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]

Nikkei Linux/2000.6



古川です。

日経 Linux の 2000.6 月号の "Linux Report" というコーナー (p14) に、

    日本語検索ソフト「Namazu2.0.4」が公開
    Word や Excel, PDF ファイルからも検索可能

という記事があります。これを読んでみると…



    "ただし、Namazu のホームページには「全文検索システム」とあるが、
    実際には単なるインデックス検索ソフトである"

うーむ。そういうもんなんでしょうか…


    "現在の特に商用ソフトでは、例えば「東京都」に対して「京都」で
    も検索できるような grep と同等の検索結果が得られるアルゴリズム
    を用いている場合が多く、単に形態素解析機能を備えているだけでは
    全文検索ソフトとは言えないようになっている。"

「京都」でヒットしないのは、それがデフォルトになっているだけで、
方法は用意されているんだけど… (中間一致とか)

# もっとも、現在の namazu は、中間一致とわかち書きが両立しないので、
# 制限が無いわけではありませんが。

それに、現在もなにも、昔から「形態素解析機能を備えている」かどうか
と、全文検索であるかどうか、あまり関係ないと思っていましたが…



    "「平河町」が「平」「河」「町」となってしまうのは KAKASI が持つ
    辞書に「平河町」が登録されていないからである。"

手もとで試してみると、確かに「平河町」は無いけど、「平河」はあるので
「平河」「町」になるはずだと思うんだけど…

    "また、形態素解析時に分割して検索できない。上の例では、「京都」
    を検索しても見つからないし、「平河町」もヒットしない"

「京都」はともかく、「平河町」は見つかるはずだと思うんだけど…

-- 
Rei FURUKAWA 
furukawa@xxxxxxxxxxxx