namazu-ml(avocado)


[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]

wakatigaki without KAKASI/ChaSen on search program



高林です

検索時に KAKASI/ChaSenを使わないで日本語のわかち書きをするようにし
てみました。 fork & exec のオーヴァヘッドがなくなるのでパフォーマ
ンスは上がります。

ただし、左から最長一致で適当に分割しているだけなので処理はかなりい
いかげんです。 NMZ.i の登録を辞書の代わりに使っているのでインデッ
クス毎にわかち書きの結果が変わったりもします。

私が思うには検索時に日本語をわかち書きする必要はそれほどあるとは思
えないし、 KAKASI/ChaSenを呼び出すとつまらない後処理をしないといけ
ないので自前でわかち書きした方が何かと便利なのです。

たとえば

  *大学 *食堂

を KAKASI にかけると

  * 大学 * 食堂

となってしまい、アスタリスクを扱うのが面倒です。

そういうわけで、検索時に KAKASI/ChaSen を呼ぶのはやめにしたいので
すが、いかがなものでしょう?

作りかけのものを

<URL:http://saturn.aichi-u.ac.jp/%7Eccsatoru/Namazu/proto/namazu-1.2.0.2.tar.gz>

に置いておきます。

--
高林 哲 Satoru Takabayashi