Namazu-devel-ja(旧)


[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]

Re: NMZ.iのデータ長について



寺西です。

# 補足です。

Tadamasa Teranishi wrote:
> 
> NMZ.i の処理で必要なのは BERサイズではなく、[単語xを含む文書の総数]
> なのですから、NMZ.ii から算出した BER サイズから
> [単語xを含む文書の総数] を求めるのではなく、NMZ.i に
> [単語xを含む文書の総数] を記録しておくというフォーマットの方が
> 断然使いやすいです。
> このためにインデックスが小さくならない(現状と同じ)としても、
> NMZ.i に BERサイズ の代わりに [単語xを含む文書の総数] を記録する
> というのが、フォーマットとしては良いでしょう。

Namazu 2.0.12 までは
・ドキュメントは [単語xを含む文書の総数*2]
・mknmz の実装は BERサイズ で、インデックスは BERサイズ で作成
  される。
・namazu の実装は BERサイズ で、一部 [単語xを含む文書の総数*2] と
 して扱っている部分がある。
・その他のユーティリティの実装は BERサイズ として扱っている。
という状況でした。
このため、きちんと統一する必要がありました。

[単語xを含む文書の総数*2]で統一する方が、NMZ.i に冗長なデータを
含まず、また取扱が楽(※)になるのですが、インデックスは 2.0系は
互換性を保つという制限がありますので、
最新版では
・ドキュメントを BERサイズ に修正。
・namazu の一部 [単語xを含む文書の総数*2] として扱っている部分を
  BERサイズ として扱うように修正。
ということを行い BERサイズ に統一しました。

2.1 系は [単語xを含む文書の総数*2] に統一して、プログラムを
すっきり簡単にした方が良いかもしれません。
ただ、似て非なるものは誤解の元ですから、どうせならもっといろいろな
部分に手を加えて、全く別のフォーマットにしたいところです。

※ これは namazu 側から見た話で、mknmz 側から見た場合ではありません。
-- 
=====================================================================
寺西 忠勝(TADAMASA TERANISHI)  yw3t-trns@xxxxxxxxxxxxxxx
http://www.asahi-net.or.jp/~yw3t-trns/index.htm
Key fingerprint =  474E 4D93 8E97 11F6 662D  8A42 17F5 52F4 10E7 D14E