Namazu-devel-ja(旧)


[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]

Re: rtf.pl commitしました。



Tadamasa Teranishi wrote:
> 簡単なテストではありますが、rtf2html の方は日本語も大丈夫でした。
> (当然ながら SJIS 出力ではありますが。)

> テキスト出力ではなくて、html 出力なのでフィルタを作るのは少し面倒
> そうです。変換後、html の処理を行うよりは、rtf2html を改造して
> rtf2text を作る方が楽そうに思いました。(ソースも 1つだけだし。)
先日作ったooo.plで全部のタグを消すために
sub remove_all_tag ($) というものを入れています。
単純な処理し貸していませんがここを通せばタグは消せます。
本来せっかくついているタグなので重み付けに用いる情報を取得すべきですが
rtf2htmlが出すタグはbodyとpだけのようなので消してしまえばよいでしょう
お試しください。

また、元の文章に'<'等が入っているとエンコードをしているようなので
sub decode_entity ($) 
を通してデコードすればよいでしょう。
(これはhtml.plから拝借しました。)

臼田幸生