Namazu-users-ja(旧)


[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]

Re: RE: Re: 要約生成時、HTML内の対象範囲を指定出来ますか?



瀧@ジャストプレイヤーです。

お世話になります。


動作報告をかねて若干質問です。

<質問>
html.plが通ったhtmlファイルの要約は、JAVA Scriptって無視されますか?
無視されるのだとしたら、先頭数バイトを飛ばした跡で、JAVAスクリプトのサー
チしてたりしますか?


実は廣瀬さんのパッチを、先ほどのFILTERDIRを利用してオリジナルフィルタを
通す方法を利用して動作をさせてみました(実際には若干、手を加えることになっ
たのですが・・・)。

というのも最近手がけるWEBサイトは、同一のテンプレートを元に記事のエリア
が設けられ、そこに本文が載せられることが多いからです。
こういうファイルの要約をとると、先頭のほうはテンプレートからの参照ばかり
で同じ文字列になり、要約が意味を成さないものになってしまいます。

そこで、廣瀬さんのパッチを利用させて頂くことにしました。
残念ながらすでにテンプレートは作られてしまっているので、
HTMLエディタとして利用しているDreamWeverの癖を利用し、
・ある決められたタグ文字列が埋まっているコンテンツは、それ以降の文章を要約にする。
・なければ全文(つまり先頭)を要約にする。
というように、廣瀬さんのhtml.plを作り変えました(若干手を加えただけですが、
設定の正規表現だけでなんとかならんかなぁともがいたけど、途中で挫折した)。

多くのページは大変良い形になったのですが、
以後、一部のサイトではその直後にJAVAScriptが部分的に表示され、
都合の悪い要約になってしまいました。


そこで質問なのですが、
JAVAスクリプトの除去はどこかのフィルタでやられておりますか?

JAVAスクリプトが表示されるnamazu検索ページを見たこともなく、html.plに
javaでgrepをかけても出てくる様子はないので、単なるタグ構造を無視する仕組
みがあり、ついでにJAVAも除去されているのかなぁとか考えたりしました。

また、要約はその後、最初の数バイトを飛ばすようですが、
この数バイト後がJAVAスクリプトの真っ只中だと取れないとか、
そういうような形なのでしょうか?



タグで、HTMLの要約表示を狭められる機能は、個人的には非常に良いと思ってお
り、標準で入っていてくれてもいい機能なのではないかと思っています。
(検索用のタグ正規表現が宣言されてなければ全文、宣言されていても本文にそ
もそもそのようなものがない場合全文・・・などすれば問題ないと思いますし)

とりあえず、JAVAスクリプトの抽出ができないのならば、同じ要領で作ってしま
えば当面しのげるなぁと思っているのですが、なにか良い方法があればとおもい、
メールしております。

ご意見いただけたら幸いです。


------------------
〒424-0821 静岡県静岡市清水相生町6-17
静岡市清水産業・情報プラザ611
(有)ジャストプレイヤー
瀧 康史
TEL : 0543-53-7660  FAX : 0543-53-7661
mailto:taki@xxxxxxxxxxxxxx  http://www.justplayer.co.jp/