Namazu-devel-ja(旧)


[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]

Re: phrase search



古川です。

From: Satoru Takabayashi <satoru-t@xxxxxxxxxxxxxxxxxx>
Subject: [namazu-devel-ja] phrase search
Date: Tue, 29 Aug 2000 18:01:17 +0900

satoru-t> のように変えた方がいいのでは、という提案です。後者の方法では
satoru-t> フレーズを確実に検索できます。

まず、個人的な好み「だけ」でいうと、私は、「フレーズを確実に検索」
したいとはあまり思っていないという、結構イイカゲンなやつです。

現在の「精度が 100% でない」という点については、ヒットが増える方向
(つまり、「見つかるべきフレーズが見つからない」ことはない) なので、
あまり気にしていませんです。

# 私の、現状の namazu に対する不満は、それよりも「中間一致とわかち
# 書きが両立しないこと」にあります


が、これは、あくまでも私の好みでありまして、「フレーズを確実に検索
したい」と、高林さんが思うのであれば、時間と技量の許す限り、それを
応援したい気持ちです。


satoru-t>   % cat COPYING | tr A-Z a-z | bigram | wc -l
satoru-t>      2988

これは、概念的には、'wc -w COPYING' と同義と思っていいですか?


satoru-t> という比率になると予想できます。約1.5倍です (かなり大ざっぱ
satoru-t> ですが)。何か勘違いしているかなあ。どうでしょう? > 古川さん

前者の大きさは、検索対象ファイルに比例して (厳密には違うけど) 大き
くなっていってしまうわけですよね?貧乏症の私は、そこが気になってし
まいますが、でも、「それが必要ならば、かまうこたあない」です。

検索対象ファイル群が「小さなファイルがたくさん」ならば、どちらの方
法も、悪くはないと思いますが、個々のファイルが大きくなったときのデ
メリットを、どういう形で引き受けるか、という選択の問題ですね。

    前者ならば、インデックスファイルサイズが大きくなる
    後者ならば、精度が落ちる


From: Satoru Takabayashi <satoru-t@xxxxxxxxxxxxxxxxxx>
Subject: [namazu-devel-ja] Re: phrase search
Date: Tue, 29 Aug 2000 20:25:45 +0900
satoru-t> 出現位置を記録しておけば、検索結果に「マッチした付近のテキス
satoru-t> ト」を表示できますね。(検索対象がテキストファイルの場合)

私としては、語の出現回数が分かることも、メリットです。スコアよりも、
出現回数の方が、再利用の価値の高い情報だと思います。

それと、出現位置が記録されていると、kakasi/chasen がなくても、それな
りの検索ができるようになる気がします。これが一番のメリットかな。

-- 
Rei FURUKAWA 
furukawa@xxxxxxxxxxxx
# 私も最近 ndtpd + lookup を使い始めました。