Namazu-devel-ja(旧)


[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]

Re: スコアリングについて



高橋です。


>具体的には TITLE タグはどのような値を設定しているので
>しょう。どんな TITLE タグでもダメなんでしょうか?

タイトルタグの値の設定という意味がよくわかりませんが、
フィールド検索の+subject:TITLE_WORDで数件確認したところ、
やはり+16はされていませんでした。

>で、パッチは正しく当たっているのでしょうか?
>kakasi で同じファイルを処理した場合は正しい結果になるのでしょうか?

もちろんパッチは正しく当たっています。
それで、kakasiも交えて実験してみました。

mknmz -k -d DOCUMENT >& log_k
mknmz -k -K -d DOCUMENT >& log_k_K

mknmz -c -d DOCUMENT >& log_c
mknmz -c -K -d DOCUMENT >& log_c_K

の各コマンドを実行。
その後、diffをとる。

diff log_k log_k_K
diff log_c log_c_K

結果は、実行時間と追加キーワード数の違いのみ。
やはり、-Kをつけると、タイトルタグの重み付けがされず、
且つ、16がキーワードとして追加されてしまいます。
つまり、chasenまたは、kakasiでの問題ではないことがわかります。
(分かち書きが違うと、デバッグプリントの-- wakatized bare content --
の後の結果が違ってくるから)

というわけでやはり、mknmzの
$$contref =~ tr/\xa1-\xfea-z0-9/   /c if $var::Opt{'nosymbol'}
のところが原因だと思いますが、どうでしょうか。

>いや、スコア 0 のままでも別にいいはずだが、それをわざわざ +1 して
>1 からの値にしている理由がわからないって話なんですけど。

そうでしたか。
なんか、醜態をさらしたみたいで恥ずかしい限りです。


図書館情報大学4年
 高橋英幸<k176@xxxxxxxxxx>