Namazu-devel-ja(旧)


[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]

Re: UTF-8 index



寺西です。

Yukio USUDA wrote:
> 
> ファイル名の変換をshiftjis→euc(正規化つき)→uriエンコードしている
> 手順に問題があるのですが
> shiftjis→euc→uriエンコードとしてもeucにない文字が消滅したりするため
> 結局完全な仕様とはなりません。
> 
> shiftjis→uriエンコードという変換のみにしておけばこの問題は根本
> から解消されます。

それは UTF-8 化でとりあえず解決する話ですよね。
(万能ではないにしろ、UTF-8 からは可逆変換可能ですから)

> > では、$INDEXFIELD_FILESYS_CHARSETは廃止して、文字コード変換をせずに
> > 元のバイナリコードのままuriエンコードすることにします。
> > (という意味の統一ですよね)
> >
> と書いたのはこれのことです。

UTF-8 化により統一して扱いたいので、手を加えたいと書いています。
 
> そのため表示用に別途NMZ.field.duriというのを設けてみました。
> あるいは、元のバイナリコードからuriエンコードしたNMZ.field.uriを
> namazu側で文字コード変換処理をして表示するのがよいと思います。

NMZ.field.uri に UTF-8 コード(エンコードもしない)で入れて、表示およ
びリンク生成時に適当なものに変換することで目的は果たせます。

インデックス内の文字コードはどうしても統一したいので、元のコード
が含まれるフォーマットは避けたいものです。

また、インデックスが euc-jp であっても一部の機種依存文字以外で
あれば半角カナを含めて、上記の方法で十分に使えるはずです。

が、nkf を使ってしまうとダメなわけで、nkf を使わない変換が必要と
なります。
-- 
=====================================================================
寺西 忠勝(TADAMASA TERANISHI)  yw3t-trns@xxxxxxxxxxxxxxx
http://www.asahi-net.or.jp/~yw3t-trns/index.htm
Key fingerprint =  474E 4D93 8E97 11F6 662D  8A42 17F5 52F4 10E7 D14E