Namazu-devel-ja(旧)


[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]

Re: MHonArc 2.6.3 のバグ(?)について



寺西です。

藤原 誠 / Makoto Fujiwara wrote:
> 
> MHonArc の件ですが、僕も最近使い始めて、まだとまどっている
> ところなのですが、
> 何とはなく
>   jis のまま保存して、< > 等だけ変換する
> という方針は変だよなぁ... と思っているこの頃です。
...
> つまり内部コード(というのとは少しは違う訳ですが)は euc-japan
> のような 8 bit の方が良いのでは ? と思っています。(*)

EUC なら漢字コード内に '<' が現れないので、ASCII 文字の '<' 等を
変換するのも簡単でいいですね。Namazu 側でもいろいろと楽だと思います。
ただ、過去の遺産もあるだろうから、JIS で保存されたファイルでも
処理できないといけないとは思うので、結局 JIS でも何らかの対策が
必要かなと思っています。

MHonArc の内部コードは EUC というより現在では Unicode で処理する
ようになっていれば良いのではないかと思います。
 
> (あ、もちろん 「UTF-8 を使わない時」という前提です)

EUC にするのは大変そうなので、いっそ Unicode
(UTF-8 ではなくデフォルトの MHonArc::CharEnt)にして、mhonarc.pl 
側で Unicode にも対応する方が良いような気がしています。

> 個人的には、
>    mhvars.pl
>       http://www.ki.nu/~makoto/diary/attach/2003/20030425-mhrcvars
>    iso-2022-jp.pl
>       http://www.ki.nu/~makoto/diary/attach/2003/20030425-mhonarc-iso2022jp
> を変更して使っています。

よくよく調べると str2html は、サブジェクト関係の文字列は通りますが、
本文は処理されない(みたい)ので、<!--X-Body-of-Message--> 以降は
JIS になりますね。(rcfile の設定がまずいのかもしれませんけど。)

このため、上記の藤原さんの修正を行ったとしても、
tests/data/ja/mail.txt を mhonarc 2.6.3 で変換すれば本文が文字化け
するものと思います。(たぶん)
-- 
=====================================================================
寺西 忠勝(TADAMASA TERANISHI)  yw3t-trns@xxxxxxxxxxxxxxx
http://www.asahi-net.or.jp/~yw3t-trns/index.htm
Key fingerprint =  474E 4D93 8E97 11F6 662D  8A42 17F5 52F4 10E7 D14E