[Namazu-devel-ja 1183] Re: 文字 N-gram ぽい実験 (Re: フレーズ検索って N-gram ですよね

Tadamasa Teranishi yw3t-trns @ asahi-net.or.jp
2006年 8月 28日 (月) 15:35:32 JST


寺西です。

NOKUBI Takatsugu wrote:
> 
> At Mon, 28 Aug 2006 11:56:31 +0900,
> Tadamasa Teranishi wrote:
> > Encode::Guess だと複数返すことがあるのですが、その時の処理ができて
> > いないだけなのでは?
> 
>   詳細については私の方ではまだ確認していません。

shiftjis と euc-jp 複数返すようでした。
 
> > それと大きなデータベースが必要になりはしないかと心配します。
> 
>   libTextCat 2.0付属の日本語データベースはEUC-JP, SJIS共に3Kb少々といっ
> たところです。とはいえ誤認も結構あるので、もう少し充実させたほうがいい
> かもしれません。

興味はありますが、日本語の判別だけに使うにオーバースペックな気は
します。
シフトJISの半角カナと EUC-JP の文字の判別ができるようになるだろうな
とは思うのですがね。

で、話を元に戻して

> で、Encode::Guess で複数返した場合には、namazu 側でやっている
> みたいに、候補のエンコーディングで変換した後の文字数を比較して
> 判定すれば、大丈夫なのではないでしょうか。*1

という判別用テスト用プログラムです。たぶん、この程度で使い物に
なるはず。
おそらく複数候補としてあげられるのは utf8, shiftjis, euc-jp
だろうと思うので、とりあえずこの3つだけチェックしています。
--
=====================================================================
寺西 忠勝(TADAMASA TERANISHI)  yw3t-trns @ asahi-net.or.jp
http://www.asahi-net.or.jp/~yw3t-trns/index.htm
Key fingerprint =  474E 4D93 8E97 11F6 662D  8A42 17F5 52F4 10E7 D14E
-------------- next part --------------
テキスト形式以外の添付ファイルを保管しました...
ファイル名: test.pl
型:         application/x-perl
サイズ:     1861 バイト
説明:       無し
URL:        http://www.namazu.org/pipermail/namazu-devel-ja/attachments/20060828/8bca565c/test.bin


Namazu-devel-ja メーリングリストの案内