Namazu-devel-ja(旧)


[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]

Re: MHonArc 2.6.3 のバグ(?)について



寺西です。

Yoshiharu ITO wrote:
> 
> わたしの場合は mhonarc 側の設定を numeric character reference で出力さ
> せる(つまりはデフォルト)ようにしてます.
...
>  perl をあまり知らないということもあり, ちょっとカッコ悪いんですが
> 
>     codeconv.pl を参考に mhonarc.pl を改造して nkf を呼び出し, numeric
>     character reference を EUC に変換
> 
> というふうにしています. ただし

http://www01.tcp-ip.or.jp/~furukawa/nkf_utf8/

によると、NKF 2.02 から --numchar-input というオプションが増えた
ようですね。知りませんでした。
これを使うと mhonarc.pl の修正はほんのわずかだと思います。

>     メールヘッダに JIS が入っている場合 mhonarc で出力した html ファイ
>     ルにも JIS 文字が残り, nkf を通した時点で化けてしまう
> というところで悩んでます(nkf で UTF-16 を扱う時の制限かな). mhonarc す
> る前に enMime でも通してみるか, と考えています.

NKF 2.02 なら
nkf --numchar-input -emXZ1
という処理を通せば良いはずです。
(デフォルトでは、pre_codeconv で nkf の処理が走るので、これは止めた
方が安全でしょう。)
テストデータは限られていますが、手元の環境では、これで文字化けは発生
していません。

ただし、X-Body-of-Message 部分は、namazu-devel-ja#02912 で書いたように 
Content-Type: がないと、JIS で出力されてしまいます。
# rcfile の設定で回避可能かもしれないが、不明
このため、JIS コードの '<' が &lt; に変換されて、結局デコードできず、
このスレッドの最初の 
http://www.namazu.org/ml/namazu-devel-ja/msg02902.html
と同じ症状が発生し、文字化けします。 
-- 
=====================================================================
寺西 忠勝(TADAMASA TERANISHI)  yw3t-trns@xxxxxxxxxxxxxxx
http://www.asahi-net.or.jp/~yw3t-trns/index.htm
Key fingerprint =  474E 4D93 8E97 11F6 662D  8A42 17F5 52F4 10E7 D14E