Namazu-devel-ja(旧)


[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]

Re: UTF-8 index



At Sat, 06 Mar 2004 01:34:41 +0900,
Tadamasa Teranishi wrote:
> ところで、GNU libiconv, glibc の iconv は、MS の変換とは異なり
> 0x8754 を UNICODE に変換して CP932 に戻すと 0xFA4A に
> 0xFA4A を UNICODE に変換して CP932 に戻すと 0xFA4A になる(実際には
> この例通りになるかどうかは確かめていません)といった実装上の違いが
> あります。
> このように 0xFA4A になってしまうのは都合が悪いので、MS と同じ変換
> である必要があります。
> 
> 当初 GNU libiconv は既に対応済みと誤解していましたが、実際には
> glibc の iconv が対応済みのようで、新しい glibc の iconv を使う分には
> あまり問題にならないということです。(Samba の開発陣が既に解決している
> 問題だということです。)

森山さんほか、glibc の iconv の CP932/UTF-8 互換性問題修正
(と EUC-JP-MS テーブルの追加) と upstream への働きかけを行なった
方々は、「Samba の開発陣」ではありませんよ。念の為。:-)

> また、Perl の変換についてはあまり考えていなかったのですが、おそらく
> MS と同じ変換はしないと思いますので、少々厄介かと思っています。
> (やや楽観的だったなと反省しています。)

ほかのメールでも書きましたが、Perl 5.8.1 以降の Encode では
森山さんが Encode モジュールメンテナの弾さんに働きかけて
くれたおかげで、直ってます。(ちなみに私は Jcode5 メーリング
リストでその過程を眺めていただけ :-)

> 上記の CP932 に同じ文字が2セット含まれている問題以外にも別の問題が
> ないわけではありませんが、可逆変換に関わる部分はこの辺りかと思います。

-- 
-- Name: SATOH Fumiyasu  -- Home: http://www.sfo.jp (in Japanese only)
-- Mail: fumiya at net-thrust.com, samba.gr.jp, namazu.org or ...