Namazu-users-ja(旧)


[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]

Re: 特定のパターンで検索する際「Out ofmemory!」になる



寺西です。

# 文書数は多いのでしょうか?

MT wrote:
> 
> サーバーのエラーログ(Apache)にも Out of memory! が記録されています。

まぁ、サーバのメモリが制限されているのでしょう。

> 「お〜(漢字)」のパターンがダメみたいなので、わかちがき(kakasi使用)
> の問題かなとも思いました。「おさる」等ひらがなだけの場合はエラーなし。
> kakasiの辞書にいくつかキーワードを追加したので。

たぶん「お」だけでもダメなんではないかと思います。
「おさる」はひとつの単語で登録されているので、「おさる」が含まれる
文書数はそれほど多くないのでしょう。

 C:\> namazu -c 'おさる' index

「お〜(漢字)」の場合は、「お」+「〜(漢字)」に分解されるはずで、
「お」の含まれる文書数が結構多いのではないかと思います。
-> その結果、メモリ不足になる。

 C:\> namazu -c 'お' index
 C:\> namazu -c '〜(漢字)' index

の結果を見て、どれくらいの数だとメモリ不足になるとかが分かるかも
しれません。

ちなみに「〜(漢字)」だとそれほど多くはないだろうと思うので、検索
できるとかではありませんか?

解決しないかもしれませんが、.namazurc (pnamazu だと違うかもしれ
ないが)の MaxHit, MaxMatch をぐんと小さな値にすれば、とりあえず
「Out of memory!」を回避できたりしないかなと思います。
# MaxHit, MaxMatch で引っ掛ける前にメモリが足りなくなっている
# と、ダメなんですけど。

回避できたとしても、「ヒット数が多すぎるので無視しました」には
なってしまいますが...。
-- 
=====================================================================
寺西 忠勝(TADAMASA TERANISHI)  yw3t-trns@xxxxxxxxxxxxxxx
http://www.asahi-net.or.jp/~yw3t-trns/index.htm
Key fingerprint =  474E 4D93 8E97 11F6 662D  8A42 17F5 52F4 10E7 D14E