Namazu-users-ja(旧)


[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]

Re: 大量データを扱いたいのですが・・・



さいのさん
レスありがとうございます。

> ■index作成時間に関してはnamazuを動かすシステムの方にも依存します。
> 一概に何時間くらいと答えられる人はいないんじゃないかなー。。。
確かにおっしゃるとおりですね。
過去の実績等で目安になる情報が得られればと思ったのですが

> ■index作成だけに関して言えば,日々更新されるような動的データでなければ
> 極端なはなし24時間だろうが1週間だろうが何時間かけても問題無いような
> 気がしますが。。。
> 因に,以前ボロマシンで1週間かけてindexを作成していたことがあります。
> indexさえきちんとできてしまえば全文検索はスピーディーできてましたよ。
すみません。もう少し詳しく書けばよかったですね。
在庫データ等の検索に使おうと考えているのですが、在庫の更新が最低一日に
一回はありまして、そのたびにindexを作るとなると大変かなと思っています。


> ■100万件というのがキーワードの数なのであれば特に問題はないかと。。。
> また,事前に検索すべきキーワードが判っているのであれば(商品データ?)
> 辞書ファイルをカスタマイズすることで効率を上げることができるのかも
> しれません。でも商品検索という話ならデータベースを動かした方が良い
> のでは?(キーワード登録に対する確実性の問題とか。。。)
データベースも確かにあるのですが、全文検索をやりたいので・・・
もし100万件検索かけたらちゃんと返ってくるまでの時間を考えたら
ちょっと恐ろしくなってしまって・・・


> ■因に現在私が動かしている検索エンジンでは html,txt,pdfファイル及び,
> excel,wordファイル全て合わせると17万ファイル以上有りキーワード
> の合計は400万件以上になります。一度にインデックスを作るのは大変
> なので分散処理してます。システム構成は,
> 	H/W: HP B2000 Workstation + 1GByte Memory
> 	OS:  HP-UX 11.00
> 以前は,Sun SS10 とか使ってましたが,遅くて。。。 (^^;
ありがとうございます。大変いい目安になります。
ちなみに「分散処理」というのは、具体的にどういった手法でやられているので
すか?
初心者の質問で申し訳ないのですが、indexファイルをデータ更新の差分だけ追加
するような方法はありませんよね?
お忙しいところ申し訳ありませんが宜しくお願いいたします。

◇◇◇◇◇◇◇◇◇◇◇◇◇◇◇◇◇◇◇◇◇◇◇◇◇
  桐山 卓也 <takuya.kiriyama@xxxxxxxxxxx>
◇◇◇◇◇◇◇◇◇◇◇◇◇◇◇◇◇◇◇◇◇◇◇◇◇