namazu-ml(avocado)


[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]

Re: Namazu 1.2.0.1 - バグ (?) レポート



"Hayato YAMANA" <yamana@xxxxxxxxx> wrote:

>現象        : mknmzでインデックス作成時にフリーズする場合がある
>回避策      : mknmz  -K オプションをつけ記号をインデックス化しない
>              ようにする
>
>上記現象の現れるページ:
>              http://www.etl.go.jp/etl/donald/mule/mule.ko.html
>原因        : このページはiso-2022-krコードで書かれていることが原因
>              だと思われる

うーん、なるほど。nkfを通したりと日本語を想定した処理を行っている
ので問題が起きそうです。


>考えられる対策: ヘッダ中にcharsetの記述があれば、チェックして
>                日本語/英語以外はスキップさせるなど..

当面はそうするのが良さそうです。実は野望として Namazuの国際化を考
えているので将来的には日本語/英語以外も扱えるようにしたいところで
す。ヘッダにエンコーディング形式が指定されていない場合は自動判別を
行う必要があったりして何かと大変そうですが…。

# ISO-2022-?? に関してはエスケープシーケンスを見て判別できますね


内部処理を EUC-JP で行っている限り国際化は程遠いのでいずれは UCS2 
に置き換える方向で考えています。そう簡単にはいかないと思いますが;-)。

--
高林 哲 Satoru Takabayashi