[Namazu-devel-ja 1188] Re: 文字 N-gram ぽい実験 (Re: フレーズ検索って N-gram ですよね

Yukio USUDA m6694ha392t @ asahi-net.or.jp
2006年 8月 29日 (火) 08:19:21 JST


臼田です。

Tadamasa Teranishi wrote:
>>
>> さらにバグってまして...修正版です。
>>
>> * UTF-8 4バイト 対応です。
>>     
>
> # そろそろ使えそうかな?
>   
これを入れてもらうと tests/ja-namazu-5 も通るように
なりますね

テストスクリプトを試してみていたら
Encode::Guess は "utf-8 or utf-8-strict"
というのを返すときがありました。
慎重な判定なのかもしれませんが
かなり厳密ですね。

Text::Iconv の使用についてですが
Iconv は変換できない文字が1byteでも入っていると
全ての変換を放棄するので
この癖がそのままでるのであれば
対応方法はあるはずですが、これもやっかいかもしれません。

臼田幸生



Namazu-devel-ja メーリングリストの案内