[Namazu-devel-ja 1180] Re: 文字 N-gram ぽい実験 (Re: フレーズ検索って N-gram ですよね
NOKUBI Takatsugu
knok @ daionet.gr.jp
2006年 8月 28日 (月) 11:14:42 JST
対応ありがとうございます。
At Thu, 24 Aug 2006 00:24:20 +0900,
Yukio USUDA wrote:
> 後者は Encode::GUESS が tests/data/ja-wakati/builtin-m-
> test.txt の文字コード判定
> に失敗していることが原因のようですが、いまのところ対処方法を思い
> つきません。
とりあえずは#18としてTracに登録しておきました。
Encode::GUESSで失敗するのはある意味Perl側の問題ですから、難しいです
ね...
最近はTextCatというn-gramのデータベースに基づきエンコーディング、言
語の判定をする手法があり、その実装も何種類かあるようなので、それが利用
できないかと考えています。
TextCat
http://grid.let.rug.nl/~vannoord/TextCat/Demo/textcat.html
実装の一つ libTextCat
http://software.wise-guys.nl/libtextcat/
--
野首 貴嗣
E-mail: knok @ daionet.gr.jp
knok @ namazu.org / knok @ debian.org
Namazu-devel-ja メーリングリストの案内