[Namazu-devel-ja 1754] Re: filter/{msword, excel, powerpoint}.pl を pl/extutf8.pl を使用するように変更

Tadamasa Teranishi yw3t-trns @ asahi-net.or.jp
2008年 7月 28日 (月) 01:56:49 JST


寺西です。

Yukio USUDA wrote:
> 
> > また、非日本語の場合、UTF-8 がそのままフィルタを素通りす
> > ることがわか
> > りましたので、US-ASCII 文字以外は '#' に変換する処
> > 理を追加しました。
> 
> 明文化されていない緩やかな仕様であるというだけで
> 致命的なバグであるというわけではないのでそこまでする必要はないと
> 思います。

たぶん誤解されていますよ。

> 3年前にも下記のように議論していますが
...
> UTF-8に移行する道をちゃんと用意しようとせずに
> ISO-8859-* の動作を直すのでなく
> ISO-8859-*圏のユーザを追い出すのはどのような意図があるのでしょう
> か。

この修正の意図はそれとは全然関係ないです。

非日本語環境では、UTF-8 のコードがそのまま素通りするので、マスクを
かけてゴミを除去しているだけです。

ご指摘のような「数値実体参照をデコードした結果の 0x80-0xffを通す」と
いう話とは直接関係ありません。

今回の修正は UTF-8 エンコードされたデータの非日本語環境での処理の
話で、素通ししたところで、ISO-8859-1 環境でも使えるわけではありま
せん。なのでゴミを除去しましょうということでした。

具体的に書くと、ISO-8859-1 の "(C)" や "×" は UTF-8 では
0xc2 0xa9 と 0xc3 0x97 です。
(ISO-8859-1 ではそれぞれ 0xa9 と 0xd7 です。)
これはこのまま通しても ISO-8859-1 環境ではコードが一致しないので
ゴミとなります。

もし ISO-8859-1 環境で使えるようにしたいのなら、このコード変換
を行う新たな処理(ツールを使うにしても)が必要になります。
が、そこまでするつもりはないので、最小限の修正ということで US-ASCII 
のみ残し、それ以外を '#' にする処理を加えたのでした。

ですので

> 現行のユーザーに逃げ道をなくしてt追いつめるようなことはや 

や

> UTF-8に移行する道をちゃんと用意しようとせずに
> ISO-8859-* の動作を直すのでなく
> ISO-8859-*圏のユーザを追い出すのはどのような意図があるのでしょう 

ということにはなっていないと思います。

ISO-8859-1 の環境の方は、現状でも使えていないが、今回新たに
使えるようにして欲しいという方はいらっしゃるでしょうが、そこに
ついては新規機能と考え対応しないということで良いかなという認識です。


UTF-8 環境の方は、素通ししたいと考える方もおられるかもしれませんが、
私の認識ではフィルタで UTF-8 を素通ししても、その後の処理が UTF-8 に
対応しているわけではないので、まともに処理されるわけはないと思って
います。なので、UTF-8 環境については一切考慮していません。


ところで、extutf8.pl については、次のターゲットである
filter/ooo.pl, や filter/koffice.pl では、decode_numbered_entity
が含まれており、「数値実体参照」にからむ話がでてきますが、
これらの decode_numbered_entity は filter/html.pl のそれとは異なり、
そもそも 127 以上は捨てていますので、こちらでも(現状より何か制限が
加わるというような)問題が発生することはありません。
-- 
=====================================================================
寺西 忠勝(TADAMASA TERANISHI)  yw3t-trns @ asahi-net.or.jp
http://www.asahi-net.or.jp/~yw3t-trns/index.htm
Key fingerprint =  474E 4D93 8E97 11F6 662D  8A42 17F5 52F4 10E7 D14E



Namazu-devel-ja メーリングリストの案内