[Namazu-devel-ja 1189] Re: 文字 N-gram ぽい実験 (Re: フレーズ検索って N-gram ですよね
Tadamasa Teranishi
yw3t-trns @ asahi-net.or.jp
2006年 8月 29日 (火) 10:53:24 JST
寺西です。
Yukio USUDA wrote:
>
> テストスクリプトを試してみていたら
> Encode::Guess は "utf-8 or utf-8-strict"
> というのを返すときがありました。
うは。しかも "utf-8" とハイフン付きですか。
> 慎重な判定なのかもしれませんが
> かなり厳密ですね。
"utf-8 or utf-8-strict" ならはそれは "utf-8-strict" なんではないか
という気がしますが、何故 or なのか...。
とりあえず Namazu では Encode の "utf-8" と "utf-8-strict" は
"utf-8-strict" として扱うので良いのではないかと思います。
# "UTF-8" と大文字だと "utf-8-strict" ですし...。
例の判定ルーチンでは "utf8" のところに "utf-8", "utf-8-strict" も
追加しておくととりあえず良いですかね。
# 2回判定する可能性があるのは無駄かな
> Text::Iconv の使用についてですが
> Iconv は変換できない文字が1byteでも入っていると
> 全ての変換を放棄するので
> この癖がそのままでるのであれば
> 対応方法はあるはずですが、これもやっかいかもしれません。
変換できない文字があれば破棄しても良いような気もしますが、変換
できない文字を取り除く等の処理が必要なら libiconv 用の Perl モジュール
を別に作成して、File-MMagic のようにバンドルしても良いでしょう。
(それで何とかなるならですが。)
--
=====================================================================
寺西 忠勝(TADAMASA TERANISHI) yw3t-trns @ asahi-net.or.jp
http://www.asahi-net.or.jp/~yw3t-trns/index.htm
Key fingerprint = 474E 4D93 8E97 11F6 662D 8A42 17F5 52F4 10E7 D14E
Namazu-devel-ja メーリングリストの案内