Namazu-devel-ja(旧)


[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]

Re: [RFC]${uri}の拡張 (Re:[namazu-users-ja] Re:検索結果のURLを日本語表示したい)



臼田です。

> UTF-8 化はインデックス全部のコードを変更する際(いつのことやら)に
> あわせておこないましょう。
> まだ、UTF-8 を内部で処理できる環境は整っていない(いろいろな
> 処理が euc-jp 前提になっている)ので、いろいろとバグがでそうで、
> 一つ一つ潰すのは大変かもと思います。
> (また、いろいろ UTF-8 対応するならインデックスを UTF-8 化すること
> も可能なので、まとめてやった方がいいでしょう。)
http://search.namazu.org/namazu-devel-ja/02981
で試したころにmknmzでのインデックスUTF-8化はそれなりにできそうな
感触を得たのですがテストを作るのが大変そうなので手をつけていませ
ん。
エンバグは心配なので、とりあえずUTF-8対応化のブランチを作ってはじ
めませんか。

> unicode に対応していない(だったか、Shift_JIS だったか) OS 付属の 
> iconv があったりするので、GNU iconv を強制的に使うようにするのなら、
> それでも良いかもしれません。
CP932のコードとの双方向変換が保証されないとMS環境でのファイル名との
整合がとれないのでiconvは最近Samba関連でCP932対応化がされたバージョン
を強制するのがよいのですかね。

> ついでにフィルタで unicode -> euc-jp に変換するのに外部プログラムを
> いろいろと呼び出しているので、これを libmfl なり libiconv なりを
> 使った変換プログラムに差し替えることを考えて、都合の良い方を選ぶ
> というのも良いかもしれません。(lv の代わりを自前で用意するという
> ことです。)
> この辺りは、unicode 変換の perl ライブラリをいろいろと調べられていた
> 臼田さんが詳しいと思うので、コード変換のライブラリを選ぶ際に気を
> つけること、要望なりの意見を伺えればと思います。
詳しくはないのですがmknmzで気になっている2点だけ書いておきます。
・Namazu2.1ではインデックスはUTF-8とeuc-jpと両方サポートするのか?
  あるいはUTF-8のみにするのか?
 euc-jpも選べるようにするならば、UTF-8変換ツールがない場合でも動作するよ
  うにするのか?
・mknmzでいままで使っているnkfは文字コード変換だけでなくmimeデコード機能
 も受け持っているので、Unicode変換ツールにはUTF-8変換と同時にmimeデコード
 機能もあるPerl5.8もしくはnkf2.0のみを対象とするということでよいか?
 (iconvなども選べるようにする場合はmimeデコードルーチンが別途必要になるが
 それでも対応しておくか。)
 また、国際化を考えると日本語コード処理に特化しているnkf2.0やjcode.pmの利
 用は後に問題になる気もします。

サポートする環境の組み合わせが多いとややこしいので後で変更するにしても
とりあえず切り捨ててもよさそうなものを決められるとよいと思います。

臼田幸生