[Namazu-users-ja 824] Re: namazu/namazu.cgiで core-dump

taguchi @ iij.ad.jp taguchi @ iij.ad.jp
2006年 9月 14日 (木) 17:31:46 JST


田口です。

> となり、問題はありませんでした。
> core ダンプする理由はもう少し条件が必要なのかもしれません。

うーん、ちょっと厭んな現象を持ち込んでしまったかもしれません_o_

> インデックスに含まれる「日本」や「の」の数はどれくらいかわかりますか?

調べました。
	日本 : 10714
	の   : 34318
        歴史 :  1437
でした。

> そのインデックスが壊れている可能性はないでしょうか?
> nmzchkw.pl で一度チェックしてみてください。

ここで初めて、nmzchkw.plの存在を知りました。ごっつい便利ですね。
結果ですが、

# nmzchkw.pl 
==============================
check 1
==============================
nul           : 0
control       : 0
cr            : 0
0x80 - 0xff   : 245014
ok
==============================
check 2
==============================
lf            : 962754
NMZ.w:  words : 962754
NMZ.wi: words : 962754
ok
==============================
check 3
==============================
ok
==============================
All check passed.

壊れていない、様です。

> また、インデックスを削除して新規にインデックスを作成した場合でも
> 同様に問題が起きるでしょうか?

これは、現在試している最中です。総文書数が4万件以上あり、今、3万件
目まできた所です。
多量のPDFが含まれているので、処理にごつい時間が掛かるです。



Namazu-users-ja メーリングリストの案内