[Namazu-users-ja 448] Re: 検索式に記号文字を使えるようにするには

Tadamasa Teranishi yw3t-trns @ asahi-net.or.jp
2005年 7月 20日 (水) 20:39:33 JST


寺西です。

"堅田 一夫" wrote:
> 
> ヒットしないHTMLファイルのみでインデックスを作ってもヒット
> しませんでした。

既に解決済みですが、その場合はその HTML ファイル(およびその HTML 
ファイルに依存した)の問題です。

> また、おかしな現象として参考ヒット数の表示のところが
> 
> 参考ヒット数: { [ 【: 0 ] [ 備: 0 ] [ 考: 0 ] [ 】: 0 ] :: 0 }
> 
> のようになりました。

備考という単語が存在しない場合、備 考 に分解されましたね。

> ヒットするHTMLとヒットしないHTMLのソースを見比べていて気づいたのですが、
> ヒットしないHTMLには【備考】の直前のタグ<font style=line-height:130%;>の
> “130%;”の後ろに半角
> スペースが入っていました。
> その半角スペースを取り除いてインデックスを作成するとヒットするようになりました。
> 
> 半角スペースが悪さをしていたようです。
> この現象は既知なものなのでしょうか?

HTML のタグ処理はそこそこ動く程度のものですから、内容によっては
うまく処理できないことはあります。

たぶん、'>' の前後にスペースか改行かタブが入っていたのではないか
と思います。

単純に
<font style=line-height:130%; >【備考】
だと誤らないはず。
これとか
<font style=line-height:130%; > 【備考】
これとか
<font style=line-height:130%; >
【備考】
だと、次の '>' が現れるまではタグの一部と誤認されるでしょう。

HTML のタグ処理を完璧にしようとはしていないので、この問題は放置
されるでしょう。(理由はわかっていますが...。)
ただ、html.pl フィルタは、きちんとした HTML パーサを使ったものに
将来置き換える予定ですので、その時には解決するものと思います。
-- 
=====================================================================
寺西 忠勝(TADAMASA TERANISHI)  yw3t-trns @ asahi-net.or.jp
http://www.asahi-net.or.jp/~yw3t-trns/index.htm
Key fingerprint =  474E 4D93 8E97 11F6 662D  8A42 17F5 52F4 10E7 D14E




Namazu-users-ja メーリングリストの案内