Namazu-users-ja(旧)


[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]

pdftotextでのエラーについて



こんにちは植村といいます。

namazuを使ってpdfを検索しようと試みているのですが、
Indexを作成するときに上手くいきません。
mknmzで何度も試したのですが上手く行かなかったので、
pdftotextで試してみました。

pdftotext -eucjp -raw pdf1-1.pdf pdf.txt

すると下記エラーが表示されます。

Error (0): PDF file is damaged - attempting to reconstruct xref table...
Error: Catalog object is wrong type (null)
Error: Couldn't read page catalog
Segmentation fault (core dumped)

xpdfのコンパイルは、--with-gzip --enable-opi --enable-japanese の
オプションをつけました。

使用している環境は、
VineLinux 2.1
namazu 2.0.5
pdftotext 0.92
pdfファイルはAcrobat5で「Acrobat4互換形式」で作成したものを
使用しています。
ただし、普通のOfficeアプリから直接作成したものではなく、
ある業務アプリから一旦PostScriptへはきだしてAcrobat Distiller 5.0で
作成したpdfです。
普通のofficeアプリから直接作成したpdfは問題なくindexすることができます。

まだ初心者ですので失礼なmlへの質問をしているかも知れませんが、
よろしく願いいたします。
上記の他に必要な情報が抜けていましたら御指摘下さい。

ご教示をよろしくお願いいたします。


------------------------------
Tomoya Uemura
uemura@xxxxxxxxxxxxxxxxxxx
Fukuchiyama-city, KYOTO