Namazu-devel-ja(旧)


[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]

Re: UTF-8 index



寺西です。

knok@xxxxxxxxxxxxx wrote:
> 
> > なるほど。どうやら自動認識の場合の処理にバグらしきものがある
> > ようで、そこそこ長い文字列の場合でも 8e が入ります。
> > しかし、入力文字コードを指定してやれば期待通りに動くようですね。
> 
>   いわゆる半角かながまじると、自動認識は困難になるそうです。なのでまあ
> ある程度はしかたがないのかなと思っていました。

あぁ、なるほど余計な 8e が入っているわけじゃなくて、自動認識に
失敗して EUC-JP のまま無変換で出力されていたわけですね。
失礼しました。

iconv, lv は自動認識しますが、nkf はEUC-JPの半角カナの自動認識が
できないだけでした。
 
>   個人的には、エンコーディングの自動認識についてもひとつレイヤとして処
> 理を独立させるべきでは、と思っています。文字列からの推測だけでなく、

どのあたりのエンコーディングの自動認識についてでしょうか。

> Apache で行うような、ファイル名にエンコーディング情報を付加する方法も
> ありえますし、XML 宣言の encoding 指定みたいな方法もあります。そういっ
> た諸々の情報を総合的に扱えるレイヤが欲しいな、と。

総合的にですか。なかなか難しい話ですよね。
-- 
=====================================================================
寺西 忠勝(TADAMASA TERANISHI)  yw3t-trns@xxxxxxxxxxxxxxx
http://www.asahi-net.or.jp/~yw3t-trns/index.htm
Key fingerprint =  474E 4D93 8E97 11F6 662D  8A42 17F5 52F4 10E7 D14E