Namazu-devel-ja(旧)


[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]

Re: UTF-8 index



臼田です。

Tadamasa Teranishi wrote:

> # まだ、中身みていません。
nmz/codeconv.cは、HEADに入っているものより古いソースを参考にしています。
直してください。お願いします。


> > メンテナンスの労力を考えるとeuc-jp,utf-8の2種類のインデックスを
> > サポートするのは難しいと感じており、方針を決めかねて作業が止まっ
> > ています。
> > インデックスはutf-8のみにしてしまってよいでしょうか?
> 
> utf-8 のみに一票。
私もutf-8のみに一票投じておきます。

> >   * Perl5.8EncodeモジュールもしくはPerl5.6以前ではNKF2を必須とした
> >    $var::USE_NKF_MODULEを廃止、$conf::NKFのみで設定することにした。
> 
> NKF 2.04 以降のバージョンチェックは行っていますか?
configureでnkf2以上であるかどうかはチェックしています。
nkfは2.04であるかどうかわかるのでもう少しチェックを厳しくできます。
ただし、nkfのperlモジュールは2.00までしかバージョン番号が入っていないため
枝番号のチェック方法がわかりませんでした。古川さんによい方法を聞かないと。


> >      $INDEXFIELD_FILESYS_CHARSET:インデックス時にEUC-jpにしてからuri
> >    エンコードしている現状との互換性のため。
> >    (mknmz内では変換せずにインデックスを別サーバーに移す際に
> >     NMZ.field.uriを書き換えるようにして、別途ツールを作ったほうが
> >     よいと思う)
> 
> いや統一しておきましょう。
では、$INDEXFIELD_FILESYS_CHARSETは廃止して、文字コード変換をせずに
元のバイナリコードのままuriエンコードすることにします。
(という意味の統一ですよね)


> >    * CAP,HEX,utf-8等のファイル名を可読性のあるものとして扱えるように
> >      codeconv::decode_filenameを追加
> >      NMZ.field.duriを残すようにした。
> 
> この辺りは将来手を加えたいと思います。
よろしくお願いします。namazu側の修正が最小限でもiconvのエラーをかわせる
ようにと、こういう実装にしました。うまく解決してください。


> > 今後の予定
> > 1.インデックスの文字コードをutf-8のみでいくのであれば
> >  ・あちこちに残っているeuc-jp用の処理を削除していく。
> >  ・template内の他のファイルもutf-8にしていく
> 
> 1 で良いでしょう。
> 互換性以外に euc-jp のインデックスを使い続ける意味はありません。
とりあえず呼び出されなくなっているサブルーチン等を削っていきます。


> インデックスファイルのフォーマットは変更したいところがあります
> ので、2.0 のインデックスとは別物と考え、漢字コードは UTF-8 に
> 統一としましょう。
> フォーマットを変えたいので、どのみち互換性が崩れます。ゆえに euc-jp 
> である必要はなくなります。
> ファイルサイズが増えるから UTF-8 は嫌だという意見もあるかもしれません
> が、フォーマットの変更によるデータの圧縮(gzip 圧縮化などを含む)も
> 考えています。
utf-8化によってサイズが大きくなるのはNMZ.field.summaryとNMZ.wですが、
元の文書等によりますが、他のファイルのほうがサイズが大きくなるので
あまり目立たないかもしれません。

臼田幸生