namazu-ml(avocado)


[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]

Re: wakatigaki without KAKASI/ChaSen on search program



古川です。

>> On Mon, 17 Aug 1998 16:42:43 +0900, Satoru Takabayashi <ccsatoru@xxxxxxxxxxxxxxxxxx> said:
  > ただし、左から最長一致で適当に分割しているだけなので処理はかなりい
  > いかげんです。 NMZ.i の登録を辞書の代わりに使っているのでインデッ
  > クス毎にわかち書きの結果が変わったりもします。

NMZ.i を使ってわかち書きすると、[namazu:00331] でも書きましたが、次の
ような現象が起こります。

>> On Fri, 6 Mar 1998 13:34:59 +0900, Rei FURUKAWA <furukawa@xxxxxxxxxxxxxxxx> said:
  > 例えば、kakasi の標準の辞書には「大阪大学」はあります。しかし、たまたま
  > 「大阪」があって「大阪大学」が無い文書群だった場合、「大阪大学」を検索
  > しようとすると、「大阪」「大学」に分かれてしまいますから、kakasi を呼び
  > だした場合にはヒットしないものが、ヒットするケースがあります。

ただし、これは、ヒット数が増える方向の現象なので、このことが問題になる
場合は少ない、と思います。


  > 私が思うには検索時に日本語をわかち書きする必要はそれほどあるとは思
  > えないし、 KAKASI/ChaSenを呼び出すとつまらない後処理をしないといけ
  > ないので自前でわかち書きした方が何かと便利なのです。

検索時に kakasi を呼ぶ方法の場合、mknmz が呼ぶ kakasi と、namazu が呼ぶ
kakasi とが、同じ辞書を使わないといけない、という制限があります。

例えば、mknmz が呼ぶ kakasi で、辞書を強化して、「愛知大学」を登録した
場合、namazu 側の kakasi で標準の辞書を使っていると、「愛知」「大学」と
なってしまい、検索がヒットしません。

namazu 側の kakasi 辞書だけ強化した場合も同じことが起こります。

この制限に引っ掛かるような運用をしているケースは少ないとは思いますが、
私にとっては、結構いやなので、

  > そういうわけで、検索時に KAKASI/ChaSen を呼ぶのはやめにしたいので
  > すが、いかがなものでしょう?

には賛成です。今ではフレーズ検索もあるので、問題は無いと思います。

-- 

                                        ヤマハ(株)ピアノプレーヤ設計課
                                                              古川 令
                                             furukawa@xxxxxxxxxxxxxxxx