Namazu-devel-ja(旧)


[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]

Re: NMZ.iのデータ長について



寺西です。

knok@xxxxxxxxxxxxx wrote:
> 
>   インデックスサイズを小さくする単純な手法として、zlib を利用すること
> は以前考えていました。たぶんそれほど難しいことではないと思います。

zlib を使うのは私も考えていました。
(Namazu とは全く関係ありませんが、自作プログラムでは zlib を使った
圧縮データの読み書きもしていますので、経験もあります。)
確かに簡単に使えます。

BER 圧縮している部分の代わりに zlib で圧縮すれば良いでしょう。
(文書数が多い場合は、全部伸張しないで、途中でやめるなどの工夫は
必要かもしれませんが。)

zlib の圧縮、伸張の時間が問題になることはないかなというのが、ちょっと
心配なところではあります。

それとは別に昔 IRIX + Perl + zlib がうまく動かなかった(過去ログに
ありますが)ので、ちょっと心理的に避けている部分はあります。
 
>   きょうび全文検索自体はできて当然の処理であって、そのなかから重用度の
> 高い情報を抽出できることが、求められてきているのだと思います。

この部分は難しいテーマであり、面白いテーマでもありますね。
 
>   さらにいえば、転置インデックスを保存する形式としての NMZ.* は素性と
> してはあまり良くないなあとも感じていて、他にいろいろと存在するフォーマッ
> トや DB backend を選択可能にしたほうがよいのでは、とも思っています。

はい。良いものがあれば、大幅変更しましょう。
 
>   その一歩として NMZ.* を扱う処理を分離するという作業を HEAD でやりか
> けていたのですが、ずいぶん前に途中で放置しています... この作業の先には、
> 完全に分離してインデックス作成処理自体をライブラリ化し、他のアプリケー
> ションとの連携をもっと容易にしたいという目論見もありました。
> 
>   ただまあ、ここまでコードが肥大化してきていると、いまのコードをベース
> にするのは厳しいかも、という気もしないでもないです。

いっそ Namazu 2.2 プロジェクトでも始めますか。
-- 
=====================================================================
寺西 忠勝(TADAMASA TERANISHI)  yw3t-trns@xxxxxxxxxxxxxxx
http://www.asahi-net.or.jp/~yw3t-trns/index.htm
Key fingerprint =  474E 4D93 8E97 11F6 662D  8A42 17F5 52F4 10E7 D14E