Namazu-devel-ja(旧)


[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]

Re: filter/macbinary.pl試用結果



こんにちは.佐久間です.



    # remove all elements
    $$contref =~ s!</?([A-Z]\w*)[\:\[]*\w*(?:\s+[A-Z]\w*(?:\s*=\s*(?:(["']).
*?\2|[\w\-.]+))?)*\s*>!element_space($1)!gsixe;

でどうでしょうか?
<o:p></o:p>
なら,element_space("o") が呼ばれます.



> 臼田です
> 
> ブラウザの仕様を期待して拡張タグを使う行為を正しいというかどうかは別
> として、
> インデックスデータとしてはゴミデータ(と思われる)となるでしょうから
> ブラウザの表示の動作と同様に、未知のタグは全部消してしまうのがよい
> はずです、このタグはfilter/html.plのremove_html_elements()でマッチ
> せずに残ってしまうようですね。
> 
> # remove all HTML elements. it's not perfect but almost works.
> sub remove_html_elements ($) {
>     my ($contref) = @_;
> 
>     # remove all elements
>     $$contref =~ s!</?([A-Z]\w*)(?:\s+[A-Z]\w*(?:\s*=\s*(?:(["']).*?\2|[\w\
> -.]+))?)*\s*>!element_space($1)!gsixe;
> 
> }
> ":"や"["がタグの中に入っているのでマッチしないのかなと思うのですが
> うかつに触るとエンバグしそうな正規表現なのでどなたかアドバイスを。



=== Sakuma,Hiroaki =======================================================
BEETAS.org          www.beetas.org      sakuma@xxxxxxxxxx
Webmin-JP           jp.webmin.com       sakuma@xxxxxxxxxxxxx
Waseda Univ CS                          sakuma@xxxxxxxxxxxxxxx
=== "There's More Than One Way To Do It" =================================