Namazu-devel-ja(旧)


[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]

Re: 「プロ野球チームをつくろう」検索問題



>perl 版では、純粋にインデックスだけを見てわかち書きするので、インデッ
>クス作成時に使うのが kakasi でも chasen でも、関係なく動きます。
逆に今のC版はchasenでつかうと本当は問題があるような気がします。
「ひらがなだけのたんごでこうせいされたふれいず」
を検索時には切り分けてくれないのですから。
たいていの場合は漢字語が検索においては大きなウェイトを占めるので
問題は少ないと思いますが。
Nmz.wを引くのが最良でしょうね。

一番楽な対策は検索ページに注釈を付ける事だと思います:-)
「長いフレーズでヒットしない場合は適当に短くしましょう」
とか、まあそれはサイトの管理者の裁量でやりゃいいことですけど。


>* KAKASIの改造 (他力本願)
>- 短くわかち書き、長くわかち書き、両方を出力を切り替えたい
> - 例:短く:奈良 先端 科学 技術 大学院 大学
>      長く:奈良先端科学技術大学院大学

kakasiを改造しない方法は無いこともないです。

僕個人の環境ではatokの辞書からコンバートした辞書と
フリーの人名辞書(姓と名が別)
を併せて使っているので(4MBくらい)
オリジナルの辞書は今使っていないのですが、
この辞書では「短く」の方で出力されます。

skkやkakasi(本来の使い方)の辞書としては
登録単語は長ければ長いほど望ましいのですが。

例:
>いきる 生きる
>はえる 生える
>せい   生
登録単語が長いほうが読みが精密になる

namazu用の分かち書き辞書としては登録単語は
せいぜい漢字2〜4文字ぐらいの意味の通る単語が望ましい気がします。
あとはフレーズ検索に頼ると・・・

一番の問題はパブリックドメインな辞書データの整備ですが・・・
現在のkakasi辞書もしくは最新のskkの辞書から
複合語を分解した辞書を作るコンバーターを作るとか・・・
難しいのかな?