[Namazu-devel-ja 1182] Re: 文字 N-gram ぽい実験 (Re: フレーズ検索って N-gram ですよね
NOKUBI Takatsugu
knok @ daionet.gr.jp
2006年 8月 28日 (月) 13:05:58 JST
At Mon, 28 Aug 2006 11:56:31 +0900,
Tadamasa Teranishi wrote:
> Encode::Guess だと複数返すことがあるのですが、その時の処理ができて
> いないだけなのでは?
詳細については私の方ではまだ確認していません。
> LIST OF LANGUAGES currently supported に UTF-8 とか、ISO-2022-JP
> とかないので、仕方ないですけど。これはデータベースに UTF-8 のデータ
> を入れていないだけなのでしょうか?
TextCatのデモサイトでは、あまりデータベースが充実してないようです。
ISO-2002に関してはエスケープシーケンスもからむので、この手法にはちょっ
と馴染まないかもしれません。ある程度の適用はできると思いますけど。
> それと大きなデータベースが必要になりはしないかと心配します。
libTextCat 2.0付属の日本語データベースはEUC-JP, SJIS共に3Kb少々といっ
たところです。とはいえ誤認も結構あるので、もう少し充実させたほうがいい
かもしれません。
libTextCatはcorpusからデータベースを作るツールが付属しているので、カ
スタマイズ自体は容易にできます。
--
野首 貴嗣
E-mail: knok @ daionet.gr.jp
knok @ namazu.org / knok @ debian.org
Namazu-devel-ja メーリングリストの案内