Namazu-devel-ja(旧)


[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]

Re: UTF-8 index



寺西です。

Yukio USUDA wrote:
> 
> Tadamasa Teranishi wrote:
> 
> > > ○数字など絶対問題になることが分っていて割と使われそうなものがあります。
> >
> > Win32版 iconv で丸数字の可逆変換テストをしてみましたが、ちゃんと
> > 元に戻っていました。(さて、何の文字が問題なんでしょう。)
> 
> 丸数字の入ったsjis.txtを作って以下のように試しました

たぶん

$ iconv -f cp932 -t utf-8 sjis.txt | iconv -f utf-8 -t cp932 > new.txt
$ cmp -l sjis.txt new.txt
 
で、差がでるか否かで判断するのが良いかと思います。

> $ iconv -f shift-jis -t utf-8  sjis.txt |iconv -f utf-8 -t euc-jp
> とすると
> iconv: sjis.txt: cannot convert
> と出て、
> 丸数字以降の文字は出てきません。
> utf-8にする時点でエラーになるようです

Shift_JIS には丸数字は含まれないので、当然といえば当然ですね。

> 少し考えて以下のようにしたらshiftjis,utf-8,euc-jpと丸数字を残したまま
> 変換できました
> $ iconv -f cp932 -t utf-8 sjis.txt |iconv -f utf-8  -t euc-jisX0213
> 
> どうやら大丈夫そうですね。

はい。

で、問題なのは丸数字ではなくてローマ数字ですね。
どうやらローマ数字は元に戻らないようです。(こまったちゃんですね。)
 
> Samba3.0で文字コードがUTF-8になったことによる問題について述べられている
> ページがあります。
> http://www.miraclelinux.com/technet/samba30/
> 正確には理解できていないので、どのように対処すべきなのかわかっていませんが
> ここで出てくるような文字が厄介ごとの種となっているのではと思っておりました。

これは MS のテーブルと iconv のテーブルが違うことによる問題ですね。
-- 
=====================================================================
寺西 忠勝(TADAMASA TERANISHI)  yw3t-trns@xxxxxxxxxxxxxxx
http://www.asahi-net.or.jp/~yw3t-trns/index.htm
Key fingerprint =  474E 4D93 8E97 11F6 662D  8A42 17F5 52F4 10E7 D14E