[Namazu-users-ja 72] Re: [Namazu-devel-ja 178] Re: Namazu 2.0.13 の filter/excel.plの問題 ?

Yukio USUDA m6694ha392t @ asahi-net.or.jp
2004年 9月 23日 (木) 12:30:42 JST


臼田です

以降は namazu-devel-ja 向きですが

Tadamasa Teranishi wrote:
> > 
> > 新しく追加した normalize_eucjp からカナや英数文字の半角全角を正規化する
> > サブルーチンを呼び出す際に文書を値渡しにしている点は気になっています。
> > 
> > ここをレファレンス渡しにしたら少しだけ軽くなるのではと思っています。
> 
> 目だった差は出ないとは思いますが、(塵も積もれば大きいかな?)

codeconv::eucjp_han2zen_kana は gfilter から呼ばれていただけで
もともとファイル名の変換用に使われていたサブルーチンなので
値渡しでよかったのだと思います。
これを文書本体を処理するのにもそのまま使うことにしたためですが
文書全体を複写して渡すのは無駄がありそうです。


> 互換性の問題がでないようなら、リファレンス渡しにしても良いのでは
> ないかと思います。
> 
直すことにします。

> ところで gfilter.pl で codeconv::eucjp_zen2han_ascii を呼ばないのは
> 正解? 
han2zenを呼んでいたのはMS-Win32で使われる半角カナ問題への対策ではないか
と思います。
ということで、英数の半角化は不要だったのでしょう。
MS-Win32の時しか使用していないですし。

field 検索を重視するならOSにかかわらず正規化したほうがよいでしょう。
ただ、この filename_to_title ですべき処理かどうかは考えたほうがよいです。

> というより、ここ codeconv::normalize_eucjp で良いのでは?
> というより、codeconv::toeuc で良いのでは? という気がしますがどうで
> しょう。 
> -- 
shiftjis <-> euc 変換だけ専用のサブルーチンが残っているのは
速度かなにかを気にしたものでしょうかね

MS-Win32時の処理が汎用ルーチンに入っているのは気になるので
いずれどこかに切り出したいと思います。
(utf8indexブランチでは既に整理済みでこの辺りは他へ移してしまいました。)

臼田幸生





Namazu-users-ja メーリングリストの案内