Namazu-devel-ja(旧)


[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]

バグ報告



Dear Sirs,

「Namazuシステムの構築と活用」(ソフトバンク刊)の付随CD-ROMよ
り、すべてを構築して試用しております。同CD-ROM上のrpmは、使用
しておりません。

【環境】
P4 1.7GHz, RAM 384Mb, HD 20Gb(Linux partition)
Red Hat 7.1, Kernel 2.4.7, glibc 2.2

(1)kakasiを使用した場合には、文章中に明らかにキーワードが(複数
個も!)含まれるファイルを、検索時にピックアップしないケースが多
く、これは利用者にとって致命的バグと思われます。私がこのことを確
認するために用いたテストドキュメントは:

      日本Linux協会制作 jla Doc-CD Volume 2    /ml/debian-devel/msg*.html
        同              jla Doc-CD Volume 4    /ml/linux-users/msg*.html

この2つのディレクトリをディスク上の適当なディレクトリ(たとえば
test)にコピーし、msg*.htmlファイルに関してファイルリストを作り、
mknmz -Fを動かします。こうしてできたインデクスに対して、たとえば:

    namzu -ah xfs . >testresult.html

等とします。xfsという語が文章中に複数個含まれるファイルで、検索に
より拾われないファイルが多いことに気づきます。(上のテストケース
では、linux-usersにある該当ファイルはまったく拾われない。)

(2)上と同じファイルリストに対し、chasen(chasen-module)を使用して
nknmz -Fを動かした場合には、検索におけるこの“ファイル落ち”という
現象は起きません。該当ファイルを、すべて完全に拾ってくれます。す
ばらしい!。そこで、利用者としては、chasen路線で行こうと思うのです
が、ところが、非常に大量のファイル(上記Doc-CDのVol. 2,3,4の各mlデ
ィレクトリの全内容(ただしmsg*.htmlファイルのみ))に対して、この
nknmz + chasenを動かしますと、途中(比較的早期)、セグメンテーショ
ン違反でpremature exitしてしまいます。このバグもまた、利用者にとっ
ては致命的です。

※nknmz + kakasiの場合は、これだけ大量のファイルに対しても無事にイ
ンデクスを作成し終えます(あらかじめすべてをハードディスクにコピー
したファイルに対しての総所用時間=15時間あまり)。検索におけるフ
ァイル落ち/見逃しがなければ、したがって、nknmz + kakasiで行きたい
ところです。


9月11日/岩谷 宏