[Namazu-users-ja 824] Re: namazu/namazu.cgiで core-dump
taguchi @ iij.ad.jp
taguchi @ iij.ad.jp
2006年 9月 14日 (木) 17:31:46 JST
田口です。
> となり、問題はありませんでした。
> core ダンプする理由はもう少し条件が必要なのかもしれません。
うーん、ちょっと厭んな現象を持ち込んでしまったかもしれません_o_
> インデックスに含まれる「日本」や「の」の数はどれくらいかわかりますか?
調べました。
日本 : 10714
の : 34318
歴史 : 1437
でした。
> そのインデックスが壊れている可能性はないでしょうか?
> nmzchkw.pl で一度チェックしてみてください。
ここで初めて、nmzchkw.plの存在を知りました。ごっつい便利ですね。
結果ですが、
# nmzchkw.pl
==============================
check 1
==============================
nul : 0
control : 0
cr : 0
0x80 - 0xff : 245014
ok
==============================
check 2
==============================
lf : 962754
NMZ.w: words : 962754
NMZ.wi: words : 962754
ok
==============================
check 3
==============================
ok
==============================
All check passed.
壊れていない、様です。
> また、インデックスを削除して新規にインデックスを作成した場合でも
> 同様に問題が起きるでしょうか?
これは、現在試している最中です。総文書数が4万件以上あり、今、3万件
目まできた所です。
多量のPDFが含まれているので、処理にごつい時間が掛かるです。
Namazu-users-ja メーリングリストの案内