Namazu-users-ja(旧)


[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]

Namazu での検索性能向上方策に関する質問



はじめまして、足立と申します。

今回初めて Namazu による検索システムの構築を行って
おりますが、検索結果に満足できずもう少し検索結果の
向上が出来ないか質問です。

MLの過去ログなども見てみましたが、解決方法が
見つからなかったのでアドバイス&ご教授をお願いします。


[質問1]

検索キーワードにある単語(下記の例では、圧縮)を入力し検索ボタンを
押したところ「検索式にマッチする文書はありませんでした。」になって
しまいました。
ちなみに部分一致検索(前方、後方、中間のいずれも)を行った場合は、
検索式にマッチする文書が検索できます。

------------------------------------------------------------------------
検索結果

参考ヒット数: { [ 圧: 0 ] [ 縮: 0 ] :: 0 } 

検索式にマッチする文書はありませんでした。

検索のコツ

検索がうまくいかないときは、次の点を確認してください。 

    ・・・・中略・・・・
    ・日本語がでたらめにわかち書きされてしまう
      { [ 最: 1 ] [ 新: 0 ] [ 情: 0 ] [ 報: 0 ] :: 0 } のように、でたらめ
      にわかち書きされることがあります。 これは、そもそも最新情報という言
      葉が検索対象に含まれない ことを意味します。検索はあきらめましょう。 
------------------------------------------------------------------------

上記の例では、「圧縮」という単語自体では検索キーとしてインデックス
ファイルが作成されていないようです。

# ちなみに、Namazu を利用している他社(例えば、関西電力[http://www.kepco.co.jp/])
# のサイト内キーワード検索では「圧縮」で文書が検索できました。


色々調べたところ分かち書きに kanwadict というバイナリ形式の辞書を
利用しているようですが、その辞書を作成する元ファイルである、
kakasidict (テキストファイル)の内容を調べても「圧縮」という単語
は登録されていました。


そこで質問です。
なぜ、「圧縮」という単語でインデックスが作成されないようでしょうか?
また、単語(熟語)でのインデックスをより多く作成するにはどのようにしたら
良いのでしょうか?


[質問2]

わかち書きの問題かも知れませんが、調べたい単語を以下のように
それぞれ入力した場合、当然、検索結果(ヒット件数)に違いが生じますね。

 単語     -----> 単一単語検索
 *単語    --+
 単語*    --+--> 部分一致検索
 *単語*   --+

今回試した結果では、質問1の「圧縮」以外の単語でも単一単語検索を
した場合、ほとんど「検索式にマッチする文書はありませんでした。」
になってしまいました。
ちなみに部分一致検索(前方、後方、中間のいずれも)を行った場合は、
検索式にマッチする文書が検索できます。

# すなわち、検索対象となる全文書の中には相当数入力した単語要素は
# 含まれているはずなのに、単一単語検索では検索されない事が
# 多いのです。


そこで質問です。
ユーザへの利便性のため入力された単語の前後にアスタリスク
を付けて中間一致検索を自動的行うようなことが簡単に出来ない
ものでしょうか?


環境は、以下の通りです。
System: solaris
Namazu: 2.0.5
Perl:   5.006
KAKASI: 2.3.2

-----------------------------------------------------------------
◆  足立  嘉浩   (Yoshihiro Adachi)                            ◆
◇    (株)電力計算センター   技術本部   技術企画室             ◇
◆  TEL: 03-3295-5751(直通)  FAX: 03-3295-5753                 ◆
◇  E-mail: adachi@xxxxxxxxx    URL: http://www.dcc.co.jp/     ◇
-----------------------------------------------------------------