Namazu-devel-ja(旧)


[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]

pluggable splitter (Re: "oshirase" and "me-rusa-ba" problems)



この問題はずっと放置してあったわけだけど。

Satoru Takabayashi <satoru-t@xxxxxxxxxxxxxxxxxx> wrote:

>「お知らせ問題」について。
>
>ChaSen を用いてインデックスを作成すると「お知らせ」が 1つの
>単語として登録されます。しかし、検索時には「お」「知らせ」の
>ように分割されてしまうため、検索できません。
>
>「メールサーバ問題」について。
>
>ChaSen を用いてインデックスを作成すると、「メールサーバ」は
>「メール」「サーバ」と 2つの単語に分かれて登録されます。しか
>し、検索時には「メールサーバ」のままで、分割されないため、検
>索できません。

考えてみれば、これは libchasen を使えば解決する話ですね。わ
かち書きの処理を簡単に切り替えられるように、きちんと抽象化す
るといいと思います。

namazurc の設定はこんな感じ:

  Splitter C  internal whitespace            # LANG=Cなら空白区切り
  Splitter ja internal adhoc                 # 安易な手法 (現在の実装)
  Splitter ja internal libchasen             # libchasen を使う
  Splitter ja internal libkakasi             # libkakasi を使う
  Splitter ja external kakasi -ieuc -oeuc -w # kakasi コマンドを使う
  Splitter ja external chasen -j -F '\%m '   # chasen コマンドを使う

この辺りをちょっと考えてもらえます? > 野首さん

-- Satoru Takabayashi