[Namazu-devel-ja 1489] Encode::Guess が複数報告する際への対応 Re: 文字 N-gram ぽい実験 (Re: フレーズ検索って N-gram ですよね

Yukio USUDA m6694ha392t @ asahi-net.or.jp
2007年 2月 10日 (土) 15:01:11 JST


臼田です

On 2006/08/28, at 15:35, Tadamasa Teranishi wrote:
>
>> で、Encode::Guess で複数返した場合には、namazu 側 
>> でやっている
>> みたいに、候補のエンコーディングで変換した後の文字数を比較して
>> 判定すれば、大丈夫なのではないでしょうか。*1
>
> という判別用テスト用プログラムです。たぶん、この程度で使い物に
> なるはず。
> おそらく複数候補としてあげられるのは utf8, shiftjis, euc-jp
> だろうと思うので、とりあえずこの3つだけチェックしていま 
> す。

Namazu-devel-ja#1183,1184,1185,1186 で提供していただいていた
判別ルーチンを HEAD の pl/codeconv.pl に入れました。
ja-namazu-5 が PASS するようになりました。

臼田幸生




Namazu-devel-ja メーリングリストの案内