Namazu-devel-ja(旧)


[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]

Re: filter/macbinary.pl試用結果



寺西です。

Yukio USUDA wrote:
> 
> ブラウザの仕様を期待して拡張タグを使う行為を正しいというかどうかは別

Netscape 出始めのころは、ブラウザ独自タグを積極的に使っていましたね。
ただ、今回のは独自拡張HTMLタグというよりは、XML を HTML 内に使って
しまっているというバグのように見えます。たぶん、コメントとして使う
はずだったものと思います。(上の方はそういうふうに記述されていますから)

> ブラウザの表示の動作と同様に、未知のタグは全部消してしまうのがよい
> はずです、このタグはfilter/html.plのremove_html_elements()でマッチ
> せずに残ってしまうようですね。
...
> ":"や"["がタグの中に入っているのでマッチしないのかなと思うのですが
> うかつに触るとエンバグしそうな正規表現なのでどなたかアドバイスを。

http://pcweb.mycom.co.jp/news/2002/10/03/10.html
によると、
「文書のフォントの情報、"o"、"v"、"w"、"x"、および "p" の各名前空間
に含まれる XML タグ によるOffice固有の段落記号の書式」というものが
あるので、これが残っているようです。
(それと <![ ]> ですかね。)

ちなみに HTML Filter 2.1 for Office 2000 というような
Office 固有のマークアップ タグを削除するツールがあります。
(Windows 版のみのようです)

http://www.microsoft.com/downloads/details.aspx?FamilyID=209ADBEE-3FBD-482C-83B0-96FB79B74DED&displaylang=JA

コマンドラインからも実行できるそうです。これ使えるかなぁと
思いましたが、Windows しか使えないのならダメですね。
-- 
=====================================================================
寺西 忠勝(TADAMASA TERANISHI)  yw3t-trns@xxxxxxxxxxxxxxx
http://www.asahi-net.or.jp/~yw3t-trns/index.htm
Key fingerprint =  474E 4D93 8E97 11F6 662D  8A42 17F5 52F4 10E7 D14E