Namazu-win32-users-ja(旧)


[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]

画像のみのPDFファイルのインデックスについて



はじめまして、Reiffと申します。

PDFファイルのインデックス化について質問があります。

現在PDFファイルをインデックス化しているのですが、ファイルの中にスキャナで取
り込んだ画像のみの
PDFファイルが存在し、そのファイルのインデックス作成途中でOut of memory!と表
示されてしまいます。

過去のログを参考に$FILE_SIZE_MAX、$ON_MEMORY_MAX等の値を変えてはみたのですが
やはり結果は同じです。

問題のファイル(167MB)をコマンドからpdftotextでテキストファイルを作成し、作成
されたテキストファイルをmknmzで
インデックス化する場合は問題無くほぼ一瞬で完了します。
pdftotextで作成されたファイルは改行コードが136行分あるテキストファイルでし
た。

マニュアルなどの普通のPDFファイルはサイズが多少大きくてもインデックス化され
ます。
mknmzで画像のみのPDFファイルのインデックスを作成するのと違いがあるのでしょう
か。

参考になるHPでも何でも構いませんので、どなたかご教示をお願い致します。

[環境]
OS:Windows2000 Professional
メモリ:256MB
CPU:Celeron1066MHz

Namazu:2.0.12
Perl:5.6
kakasi:2.3.4
xpdf:2.03

[mknmzrcの設定]
$ON_MEMORY_MAX = 5000000;
$FILE_SIZE_MAX = 200000000;
$TEXT_SIZE_MAX = 600000000;