Namazu-users-ja(旧)


[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]

Re: フレーズ検索のHASH値への変換方法



初投稿させて頂きます。

> 単語1を含む文書IDの総数のBER数値のバイト数+単語1を含む文書のスコア値のBER
数値のバイト数
> のような気がしますが、如何でしょうか?
> BER圧縮は可変長なので、かならず偶数にはならないと思うのです。。
の方が正しいと私は思います。
文章ID間の距離が127以下であるのと、スコアが127以下である時に限定して、文章数
x2は正しいので。
つまり、BER圧縮整数値の最小単位1byteをそれぞれ差分IDとスコアに使っていると
いう仮定が、文章数x2という仮定を成り立たせていますが、
上限ストップ機能は組み込まれていませんので、それは間違えていると思われます。
プログラム的にも、それを前提にしている部分は、スコアと文章IDの値によって具
現しうる問題を内在していることになります。

-----Original Message-----
From: Komai @home [mailto:GFH05144@xxxxxxxxxxx]
Sent: Sunday, June 08, 2003 10:29 AM
To: namazu-users-ja@xxxxxxxxxx
Subject: [namazu-users-ja] Re: フレーズ検索のHASH値への変換方法


小舞です。

いろいろアドバイスありがとうございます。
やはりPerl(mknmz)をきちんと解読しないといけないですね。。。

Tadamasa Teranishi さんは書きました:
>これは、文書ID の総数と スコアの総数 であり、(文書IDの個数と
>スコアの個数は同じため)結果的には 文書の総数 * 2 になっている
>のではないかと思います。
>あくまでも個数であって、バイト数ではないので偶数でもなんら問題
>ないでしょう。

Perlがよくわかっていないため、ファイルの仕様(+自分の想像も含む)から
Cでファイルを読み込んで、再理解する、、という感じでえらく迂遠な
方法をとっているので、こんな自分のような変な理解が起きるのかもしれません。。

自分も、最初、文書総数×2(のBER値)と思っていて、
必ず偶数ということで、2で割れば、単語ID?番を含む文書IDの総数が
でるので、それで良いと思っていたのですが、、
奇数になることも、あって、2で割り切れないから、
あれっ?、、と思った次第です。