[Namazu-users-ja] ソートのデフォルト値

Youichi Iwakiri yiwakiri @ st.rim.or.jp
2004年 6月 15日 (火) 14:44:53 JST


いわきりです

Koichi Fuchigami wrote in <200406150440.i5F4ed005381 @ cork.wul.waseda.ac.jp> :
>おっしゃるとおりわざわざ130,000件 HIT するようにmaxhitなどは変更しています
>例えば200,000件の写真の資料があるとします
>それぞれのメタデータは資料番号(uri)、撮影場所などの情報を持っているとします。
>それで撮影場所が「東京」で130,000件ほど該当しました(東京はスタジオが多い)
>そのときに出来ればデフォルトのSCOREでなく資料番号(uri)順に表示したいということ
>です。
>sortmethodを使用して資料番号(uri)順にソートすると
>HIT件数が多いせいか検索時間がかかってしまいます。
>それだったら最初からデフォルトの検索結果が資料番号(uri)順で表示されるのならば
>検索時間のパフォーマンスもあがるかなと思ったのが私の意図するところです

この部分に関して言えば、検索結果に対して何らかのソートが行われます。
寺西さんもおっしゃってますが、scoreによるソートに比べuriのソートは、
コストのかかる処理になります。
uriが長ければ(ファイルの配置が深ければ深い程)コストが増えます。

namazuじゃないですけど、sortコマンドで200,000件のデータを
ソートした場合です。
$ time sort sort.dat > /dev/null
2.360u 0.030s 0:02.47 96.7%     0+0k 0+0io 156pf+0w
$ time sort sort_long.dat > /dev/null
15.050u 0.040s 0:15.10 99.9%    0+0k 0+0io 155pf+0w

sort.datは、
63055
2999
127907
62400

sort_long.datは、
http://localhost/foo/bar/baz/hoge/63055
http://localhost/foo/bar/baz/hoge/2999
http://localhost/foo/bar/baz/hoge/127907
http://localhost/foo/bar/baz/hoge/62400
(以下、200,000行つづく)

>表示順のプライオリティもさまざまだということと
>情報によっては沢山HITするものなどもあると考えていただけたらと思います

表示の用件や利用例を聞いた感じでは、namazuを用いた検索システムが
最適解とも思えません。
メタデータに則して情報を扱われているのでしたら、一般のDBMSの
方が適していると思います。

-- 
Youichi Iwakiri




Namazu-users-ja メーリングリストの案内