Namazu-devel-ja(旧)


[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]

Re: UTF-8 index



臼田です。

> > > 今後の予定
> > > 1.インデックスの文字コードをutf-8のみでいくのであれば
> > >  ・あちこちに残っているeuc-jp用の処理を削除していく。
> > >  ・template内の他のファイルもutf-8にしていく
> > 
> > 1 で良いでしょう。
> > 互換性以外に euc-jp のインデックスを使い続ける意味はありません。
> とりあえず呼び出されなくなっているサブルーチン等を削っていきます。

utf8index-branchに少しづつ修正をしております

pl/codeconv.plから
shiftjis<->eucjpに使われていた
eucjp_to_shiftjis, etos, shiftjis_to_eucjp, stoe, toeuc
を削りました。

あわせて
filter/win32/{oleexcel.pl, olemsword.pl, olepowerpoint.pl}
からのcodeconvの呼び出しを変えました。

filter/rpm.plのsummary作成個所にバグらしきものがあるのを見つ
けたので修正しました。(utf8index-branchのみ)


分かちがきツールの特定をconfigureとmknmz内の両方で行っていて
なおかつ、設定や初期化をmknmz内数箇所とwakati.pl内と処理が
数箇所で行われているので
mecabのPerlモジュールの初期化のように
Text::KakasiやText::Chasenもwkati.pl内で初期化するようにして
処理を一箇所に固めたいと思っております。
indexer.plのようなスタイルにしたいのですが、よくわからなく
なってきたので少し考えてから行います。

臼田幸生