[Kakasi-dev 21] Re: 辞書登録した単語が認識されない

NOKUBI Takatsugu knok @ daionet.gr.jp
2005年 3月 30日 (水) 17:38:56 JST


  送信されているアドレスはMLに登録されていないようなので、CCしています。

At Tue, 29 Mar 2005 16:58:09 +0900 (JST),
MITA Tomohiro wrote:
> いきなり質問なのですが、kakasiへの辞書登録にはなにかコツがいるのでしょうか。
> 
> 試験的に以下のような1件のみの登録を行ってみたところ、
> 登録した単語は認識されていないようでした。
> 
> sdic.txt: (EUC)
> けいさん /計算/

> ソースを追ってデバッガにかけてみれば分かることかもしれませんが
> 辞書を作成する段階なのか分かち書きを行う段階なのかすら切り分けが
> つかず動作を追いきれませんでした。
> 
> 動作ロジック上これがどう影響していて、どういう登録にすればいいのかを
> 知りたいのですが、どなたか教えていただけないでしょうか。

  追試はしていないのですが、KAKASIの挙動としては先頭の漢字1文字をキー
とした配列をもっていて、そこに含まれる単語のうちもっとも長い物をマッチ
させるという作りになっていたはずです。

  おそらく、上記の単語だけを記録した辞書をつくって試されたと思うのです
が、最低限1文字分の単語が記録されていないとうまく動作しないのだと思い
ます。

  KAKASIはChaSenに比べて早いといわれていますが、実は遅いのではないかと
いう計測をくどうさんがなさっています。
http://chasen.org/~taku/blog/archives/2001/05/darts_2.html

  前述のようなアルゴリズムよりはDouble Arrayの方が高速であることは十分
考えられるので、将来はDouble Arrayで実装できるといいなと個人的に思って
います。単語を全部同じ品詞、コストにしてMeCabを使えば済んでしまいそう
な気もしないでもないですけど。
  辞書の形式ぐらいですかね。意味があるとすれば。
-- 
野首 貴嗣
E-mail: knok @ daionet.gr.jp
	knok @ namazu.org / knok @ debian.org



Kakasi-dev メーリングリストの案内