[Namazu-win32-users-ja 1036] Re: HTMLのhタグ部分がインデックスされない問題

Yukio USUDA m6694ha392t @ asahi-net.or.jp
2007年 10月 5日 (金) 21:10:43 JST


臼田です

Kuroda さんは書きました:
> 
> 2.問題の状況
>     HTMLファイルのhタグの部分がインデックスされません。mknmz(その後
>   searchsで検索)およびnmzcatで調べましたが、hタグの部分が取り出され
>   ないようです。
> 
> [実例]
>     1)添付ファイル「test1.htm」では、<h5>〜</h5>の部分がインデックス
>       されません。
>         注)ウェブ画面の段落内で文字サイズを変更させるため、hタグを
>           使用しています。本HTMLでは省略していますが、実際にはCSS
>           ファイルで設定しています。なお、本ファイルは実際のものから
>           大幅に縮小してアレンジしたものです。
>     2)上記ファイルから<h5>と</h5>を削除した添付ファイル「test2.htm」
>       では、全文が問題なくインデックスされます。
> 
詳しく調べていませんが、おそらく
<h5>と</h5>の間にある本文中に<br>タグがあるため
filter/html.pl の
weight_element, weight_element_sub 内の正規表現処理で
間違った処理がされていると思われます。
可能であれば修正をすることになります。

HEAD 版の html.pl では正規表現処理でなく
HTML::Parserを使用することもできるため
当面、これを使えば問題なく処理できるかと思います。
http://cvs.namazu.org/*checkout*/namazu/filter/html.pl?rev=1.55
から入手してc:\namazu\share\namazu\filter\html.pl と置き換えて使って
みてください。
(別の問題が起きるかも知れませんので元のファイルは別名で
コピーして残しておいてください)

臼田幸生



Namazu-win32-users-ja メーリングリストの案内