Namazu-devel-ja(旧)


[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]

Re: スコアリングについて



寺西です。

Hideyuki Takahashi wrote:
> 
> サンプルデータを以下に示します。
...
> [deyu2@kamina temp]$ less temp.html
> <html>
>     <head>
>         <title>temp file</title>
>     </head>
>     hello world.
> </body>

やっと動作確認できる環境を構築しましたので、確認しました。
また、症状が再現するのも確認しました。

> どういうことか、mknmzを追ってみたのですが、
> $$contref =~ tr/\xa1-\xfea-z0-9/   /c if $var::Opt{'nosymbol'}
> (line 2211)のところで、
> 右側のタグのスラッシュがけずられ、
> その後のline 2227の、
> $part2 =~ s!\x7f *(\d+) *\x7f([^\x7f]*)\x7f */ *\d+ *x7f!
> のところが偽になり、16とtitleにある単語が登録される、
> というようなことになったと思われます。
> 
> 例)
> \x7f 16 \x7f TITLE_WORD \x7f /16 \x7f (line 2211前)
> \x7f 16 \x7f TITLE_WORD \x7f 16 \x7f (line 2211後)

ほぼそうですが、\x7f も削られてしまうようです。
# ダメじゃん。

wordcount_sub() で nosymbol の処理をするのが簡単そうですが、
パフォーマンスに影響しますかね。

また、HEAD の方は -K がうまく機能していないようにも見えます。
(削除している部分が見当たらない)
こっちも _wordcount_sub() で nosymbol の処理を行えば、良いよう
です。

簡単なテストは済みましたので、近日中にパッチを公開します。
-- 
=====================================================================
寺西 忠勝(TADAMASA TERANISHI)  yw3t-trns@xxxxxxxxxxxxxxx
http://www.asahi-net.or.jp/~yw3t-trns/index.htm
Key fingerprint =  474E 4D93 8E97 11F6 662D  8A42 17F5 52F4 10E7 D14E