Namazu-win32-users-ja(旧)


[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]

HTML化されたOffice文書のタグ抜き方法は?



kc-satouです。
MS-OFFICE文書を「名前を付けて保存→webページHTML形式」で保存し、
officeによって自動作成されたHTMLファイルをインデクス化すると、
下記のごとく<body></body>間のタグをことごとく拾ってしまい、
NMZ.result.normalをすべて埋め尽くしてしまうのですが、
何かうまい打開策はないでしょうか?
---------------------------------
NMZ.result.normal.ja の表示例

<p:slide coordsize="720,540" colors="#FFFFFF,#000000,#808080,#000000,#00CC99,#3333CC,#CCCCFF,#B2B2B2" 
masterhref="master03.xml"> <p:shaperange href="master03.xml#_x0000_s1025"/>
<![if !ppt]><p:shaper 
---------------------------------