[Namazu-devel-ja 1489] Encode::Guess が複数報告する際への対応 Re: 文字 N-gram ぽい実験 (Re: フレーズ検索って N-gram ですよね
Yukio USUDA
m6694ha392t @ asahi-net.or.jp
2007年 2月 10日 (土) 15:01:11 JST
臼田です
On 2006/08/28, at 15:35, Tadamasa Teranishi wrote:
>
>> で、Encode::Guess で複数返した場合には、namazu 側
>> でやっている
>> みたいに、候補のエンコーディングで変換した後の文字数を比較して
>> 判定すれば、大丈夫なのではないでしょうか。*1
>
> という判別用テスト用プログラムです。たぶん、この程度で使い物に
> なるはず。
> おそらく複数候補としてあげられるのは utf8, shiftjis, euc-jp
> だろうと思うので、とりあえずこの3つだけチェックしていま
> す。
Namazu-devel-ja#1183,1184,1185,1186 で提供していただいていた
判別ルーチンを HEAD の pl/codeconv.pl に入れました。
ja-namazu-5 が PASS するようになりました。
臼田幸生
Namazu-devel-ja メーリングリストの案内