[Namazu-devel-ja 1182] Re: 文字 N-gram ぽい実験 (Re: フレーズ検索って N-gram ですよね

NOKUBI Takatsugu knok @ daionet.gr.jp
2006年 8月 28日 (月) 13:05:58 JST


At Mon, 28 Aug 2006 11:56:31 +0900,
Tadamasa Teranishi wrote:
> Encode::Guess だと複数返すことがあるのですが、その時の処理ができて
> いないだけなのでは?

  詳細については私の方ではまだ確認していません。

> LIST OF LANGUAGES currently supported に UTF-8 とか、ISO-2022-JP
> とかないので、仕方ないですけど。これはデータベースに UTF-8 のデータ
> を入れていないだけなのでしょうか?

  TextCatのデモサイトでは、あまりデータベースが充実してないようです。
ISO-2002に関してはエスケープシーケンスもからむので、この手法にはちょっ
と馴染まないかもしれません。ある程度の適用はできると思いますけど。

> それと大きなデータベースが必要になりはしないかと心配します。

  libTextCat 2.0付属の日本語データベースはEUC-JP, SJIS共に3Kb少々といっ
たところです。とはいえ誤認も結構あるので、もう少し充実させたほうがいい
かもしれません。
  libTextCatはcorpusからデータベースを作るツールが付属しているので、カ
スタマイズ自体は容易にできます。
-- 
野首 貴嗣
E-mail: knok @ daionet.gr.jp
	knok @ namazu.org / knok @ debian.org



Namazu-devel-ja メーリングリストの案内