Namazu-devel-ja(旧)


[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]

Re: UTF-8 index



寺西です。

# まだ、中身みていません。

Yukio USUDA wrote:
> 
> メンテナンスの労力を考えるとeuc-jp,utf-8の2種類のインデックスを
> サポートするのは難しいと感じており、方針を決めかねて作業が止まっ
> ています。
> インデックスはutf-8のみにしてしまってよいでしょうか?

utf-8 のみに一票。

>   * Perl5.8EncodeモジュールもしくはPerl5.6以前ではNKF2を必須とした
>    $var::USE_NKF_MODULEを廃止、$conf::NKFのみで設定することにした。

NKF 2.04 以降のバージョンチェックは行っていますか?

>      $INDEXFIELD_FILESYS_CHARSET:インデックス時にEUC-jpにしてからuri
>    エンコードしている現状との互換性のため。
>    (mknmz内では変換せずにインデックスを別サーバーに移す際に
>     NMZ.field.uriを書き換えるようにして、別途ツールを作ったほうが
>     よいと思う)

いや統一しておきましょう。

>    * CAP,HEX,utf-8等のファイル名を可読性のあるものとして扱えるように
>      codeconv::decode_filenameを追加
>      NMZ.field.duriを残すようにした。

この辺りは将来手を加えたいと思います。

> 今後の予定
> 1.インデックスの文字コードをutf-8のみでいくのであれば
>  ・あちこちに残っているeuc-jp用の処理を削除していく。
>  ・template内の他のファイルもutf-8にしていく

1 で良いでしょう。
互換性以外に euc-jp のインデックスを使い続ける意味はありません。

インデックスファイルのフォーマットは変更したいところがあります
ので、2.0 のインデックスとは別物と考え、漢字コードは UTF-8 に
統一としましょう。
フォーマットを変えたいので、どのみち互換性が崩れます。ゆえに euc-jp 
である必要はなくなります。
ファイルサイズが増えるから UTF-8 は嫌だという意見もあるかもしれません
が、フォーマットの変更によるデータの圧縮(gzip 圧縮化などを含む)も
考えています。
-- 
=====================================================================
寺西 忠勝(TADAMASA TERANISHI)  yw3t-trns@xxxxxxxxxxxxxxx
http://www.asahi-net.or.jp/~yw3t-trns/index.htm
Key fingerprint =  474E 4D93 8E97 11F6 662D  8A42 17F5 52F4 10E7 D14E