[Namazu-users-ja 1077] Re: gcnmz が非常な時間を要するようになった

Tadamasa Teranishi yw3t-trns @ asahi-net.or.jp
2008年 4月 7日 (月) 21:10:17 JST


寺西です。

"Hideyuki SHIRAI (白井秀行)" wrote:
> 
> /home/shirai/Mail/shimbun/asahi/243 <= subject は iso-2022-jp のまま
> /home/shirai/Mail/shimbun/asahi/247 <= subject を utf-8 に変えた
...
> というわけで、この問題はあるようです。とりあえず、243, 247 のファ
> イルを付けておきますが、--debug 付きで mknmz すると、247 の body
>> 
> // -- わかち書きされた内容 --
> // <html>
> // <head>
> // <base href="http://www.itmedia.co.jp/news/articles/0804/04/news064.html">
> // </head>
> // <body>
> // <h5> $b!v5!4o$,0c$&$@$1$g46f0$,0c$&!w!=!= (b ipod $b$j$i$g2;3z$rd0$$$f$$$k<c<t$k%*!<%g%#%*%7%9%f%`$g9b2;<a$j2;$r3z$7$s$g$b$i$& (b $b!h%^%k%"6x@)!i (b $b%$%y%s%h$nbh (b4 $bcf$,3+$+$l$k!# (b</h5>

パートごとにコードが異なる場合についてまでは考慮していないので、
mailnews.pl は pre_codeconv でファイル丸ごとフィルタに渡す前に
コード変換を行っています。

このため、最初の方に UTF-8 な文字列(この場合、Subject)があると、
全体を UTF-8 とみなして変換を行うため、本文の JIS が変換されず、
文字化け状態となります。
-- 
=====================================================================
寺西 忠勝(TADAMASA TERANISHI)  yw3t-trns @ asahi-net.or.jp
http://www.asahi-net.or.jp/~yw3t-trns/index.htm
Key fingerprint =  474E 4D93 8E97 11F6 662D  8A42 17F5 52F4 10E7 D14E



Namazu-users-ja メーリングリストの案内