namazu-ml(avocado)


[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]

Re: Non wakatigaki



kawato@xxxxxxxxxxxxxxxx (川戸勝史) wrote:

>たしかに技術系MLのように、探すキーワードは英単語や漢字単語主体であ
>ればNamazu+kakasi(chasen)でうまくいくとは思いますが、そうでない場
>面で運用をする場合は、実際のところ、辞書依存のわかち書きではうまく
>いきません。

(snip)

>とはいえ、おそらく今のNamazuの枠組でフリーワード検索をやるのはかな
>り無理があると思いますし、せっかくの既存の良いところを犠牲にしてし
>まうのは本意ではないので、長いスパンで検討していただけると嬉しいで
>す。

安易な方法としては現状でも 『*ひらがな*』 のように両側にアスタリス
クをつければひらがなの語も検索できます。

ところで、以前に私は

| >「バックボーン」という単語はkakasi -wをかけた時に、
| >「バックボーン」という一つの単語にされてしまうので、
| >「バック」や「ボーン」では検索できないようです。
| 
| (snip)
| 
| >kakasiをつかっているnamazuやSSEはどうなっているのでしょうね?
| 
| 同じです。KAKASI はカタカナには弱いので「バックボーン」は解決しま
| せんが、日本語のフレイズについては辞書に含まれる連語をすべて除外す
| るとずいぶん変わってくるはずです。たとえば
| 
|     せんたんかがくぎじゅつ / 先端科学技術
| 
| はフレイズを構成する「先端」「科学」「技術」がそれぞれ辞書に登録さ
| れているので削除します。このようにすると、「先端」や「科学」で検索
| したときに「先端科学技術」が漏れることはなくなります。
| 
| フレイズ検索が可能ならばこの方針は悪くないと思います。 Namazuのフ
| レイズ検索は半分インチキなのでちょっとあれですけど。
| 
| 試しに kakasidict から連語を除外する Perlスクリプトを作ったので興
| 味のある方はお試しください。メイルの末尾に添付しておきます。
| 
|     $ ./pexclude kakasidict 2> warning > result

のようなことを考えたことがあります。ようするに辞書の単語は徹底的に
短くして複合語はフレイズ検索で扱えば良いというアイディアです。

この方法でも辞書に頼っていることに代わりはないのでひらがなには弱い
のですが、このさい日本文字は辞書に頼らずすべて 1文字ずつインデック
スに登録してしまえば、川戸さんの要望にかなうものになるかもしれませ
ん。

ただ、 Namazuのフレイズ検索の精度では今度は逆に「存在しない単語が
見つかってしまう」事態が発生します。2文字づつ登録すれば少しはまし
になるかもしれませんが。

# 辞書を使わない方式だと『林哲』で検索して『高林哲』がヒットしてし
# まう弊害もあります。気にするほどの問題ではないと思いますが。


P.S.

検索結果におけるフレイズの参考ヒット数の表示方法は変えたほうが良い
ような気がしてきました。

-- Satoru Takabayashi