Namazu-users-ja(旧)


[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]

Re: mknmz のパフォーマンスについて



  はじめまして、西山@国土環境と申します。
 先月、このMLに加入させていただき、同様なことをしようとして、
このMLで色々質問していました。
 こんなときにしか、貢献できませんので、私の知っている範囲で。

Chiyoko> 西森と申します。
Chiyoko> 初めて質問させていただきます。
Chiyoko> 
Chiyoko> PentiumIII800Mhz、メモリ256MBのマシンで
Chiyoko> OSがTurboLinux Server6.1、Namazuは2.0.4を使っています。
Chiyoko> 
Chiyoko> 現在、2930個のファイルをインデックス化しようとしています。
Chiyoko> 内訳は、HTML、PDF、Excelファイルです。
Chiyoko> サイズ的には、数十KB〜1MBほどのファイルです。

 私のところでも、同様のことをしました。私の場合、NTサーバの
共有フォルダー上ですが、今回の場合ほとんど同じだとおもいます。

 私の環境では、

CPU:	P3-850 x2
MEM:	1024GB
OS:	RedHatLinux7.1J+namazu-2.0.5

検索対象:
ファイル数:	2537
ディレクトリ数:	302
検索対象数:	1499(mknmzでインデックス対象になるもの)
検索対象容量:	837MB
検索対象ファイル:	PDFファイル、Excelファイル、Wordファイル、
			テキスト、HTMLファイル、一太郎ファイル

でした。これで、文書フィルタを変更して、色々、テストしました。

1)doccat(データ変換研究所)
2)xlHtmlとwvWareを利用した場合
3)2に、さいのさんに教えていただいたパッチを適用
(http://www.ki.nu/software/namazu/tutorial/patches.html)

その結果、インデックス作成時間にかなりの差がでることがわかりました。

1)	714秒
2)	5472秒
3)	894秒

これは、xlHtmlやwvWareが文書中の画像や表を原本に近づけるようhtml化して
時間が取られているようです。本来、全文検索では、表部分や画像部分の処理
はなくてもいいのですが、この処理でかなり処理時間がかかっているようです。

 このように、全文検索サーバのインデックス作成には、主に、

1)ハードウェアスペック
2)検索対象ファイルの種類
3)文書フィルターソフト(namazu付属の.plファイルではない)の変換性能

とあるので、藤原さんが書いているように、まずは、2.0.5に上げてから、
どこで時間がかかっているか調べた方がよろしいかと思います。

 大した情報ではないですが、ご参考までに。

------------------------------------------------------------
国土環境株式会社         E-mail:hideyuki@xxxxxxxxxxxxxxxxx
情報システムグループ     WWW   :http://www.metocean.co.jp/
西山 英之                TEL   :045-593-7616
                         FAX   :045-593-7628