Namazu-users-ja(旧)


[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]

missing of second byte of EUC



はじめまして、
坂本と申します。

Namazu は、ほとんど使えていないので恐縮なのですが、
気になることがあったので投稿します。

http://www.namazu.org/ からメーリングリストを検索していて、
w3m で表示させると一部が文字化けしたりアンカーがおかしくなったり
することがありました。
HTML のソースを見ると EUC の1バイト目のみが書き込まれて

 <dt>2. <strong><a href="〜">〜〜[1バイト目]</a></strong> (スコア〜

の様になっているものがありました。
例としては、
  http://www.namazu.org/ml/namazu-users-ja/msg00270.htmlhttp://www.namazu.org/ml/namazu-users-ja/msg00307.html
にヒットした場合です。
その他、EUC-JP には現れないはずの \240 = 0xa0 があることもあります。
Namazu-users-ja を『文字化け』で検索してみてください。

http://www.namazu.org/ では Namazu-2.0.3 を使っているようですので、
Namazu-2.0.4 では修正されているのかもしれないのですが、
ちょっと気になったもので。

PS.
最近の版では、xlHtml が採用されているようですが問題が出ていません
でしょうか? 以前、作者に Unicode がらみの patch など送ったことが
あったのですが、まだ幾つか問題もありますので少し気になっています。
-----------------------------------
坂本 浩則 <hsaka@xxxxxxxxxxxxxxxxx>
 http://www2u.biglobe.ne.jp/~hsaka/