[Namazu-devel-ja 1184] Re: 文字 N-gram ぽい実験 (Re: フレーズ検索って N-gram ですよね

Tadamasa Teranishi yw3t-trns @ asahi-net.or.jp
2006年 8月 28日 (月) 16:09:43 JST


寺西です。

# 臼田さんの指摘により判明。

Tadamasa Teranishi wrote:
> 
> という判別用テスト用プログラムです。たぶん、この程度で使い物に
> なるはず。
> おそらく複数候補としてあげられるのは utf8, shiftjis, euc-jp
> だろうと思うので、とりあえずこの3つだけチェックしています。

バグだらけでした。修正版です。

ただし、"深" を Shift_JIS に変換して判定すると euc-jp と誤認されて
ます。誤認率は nkf より高いということになりますが、少し手を加えれば
改善できるような気はします。
-- 
=====================================================================
寺西 忠勝(TADAMASA TERANISHI)  yw3t-trns @ asahi-net.or.jp
http://www.asahi-net.or.jp/~yw3t-trns/index.htm
Key fingerprint =  474E 4D93 8E97 11F6 662D  8A42 17F5 52F4 10E7 D14E
-------------- next part --------------
テキスト形式以外の添付ファイルを保管しました...
ファイル名: test.pl
型:         application/x-perl
サイズ:     1870 バイト
説明:       無し
URL:        http://www.namazu.org/pipermail/namazu-devel-ja/attachments/20060828/21aa88ed/test.bin


Namazu-devel-ja メーリングリストの案内