Namazu-win32-users-ja(旧)


[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]

pdftotext.exe のアプリケーションエラー



はじめまして、吉川です。

さっそくですが、以下環境でPDFファイルのCGI検索システムを
構築しています。
●環境
      OS: Windows NT4.0 SP5
          namazu 2.04
          Perl 5.005_03
          kakasi
          xpdf v0.90


検索対象となるPDF 約50ファイルに対して、mknmz を
-a -k -V -O のオプションで行うと、4ファイルの処理中に
「pdftotext.exe アプリケーションエラー」ダイアログが表示され、
以下のエラーログが表示されます。
------------------------------
@@ モジュール: pdf.pl
@@ Processing pdf file ... (using  'C:\namazu\bin/pdftotext')
Can't spawn "C:\namazu\bin/pdftotext -q -eucjp C://NMZ.pdf.tmp C://NMZ.pdf2.tmp"
: No error at C:/namazu/share/namazu/filter/pdf.pl line 76, <GEN7> chunk 6.
6/54 - /D|/project/WebSerch/www/htdocs/pdfdata2/1-2.pdf [application/pdf]
------------------------------
ちなみに、残りファイルは正常に処理終了しています。


どうやら pdftotext が原因そうなので下記のように単体で実験しましたが、

 pdftotext -q -eucjp "問題が発生するPDFファイル" tmp.txt

やはりアプリケーションエラーのダイアログが発生しました。
tmp.txt には途中まで変換されています。

tmp.txtで変換失敗している文字は、
 ・改行
 ・す
 ・g
ですが、他のファイルで上記文字で変換に成功している場合もあります。
# 成功しているケースの方が多いような..

そこで質問なのですが、pdftotext でアプリケーションエラーが発生する
原因及び回避策をご存知の方がいらしたら御教授下さい。



また、ML#00199 に

> それで、pdf.pl の73行目の「-eucjp」を省いたらエラーは
> 起きなくまりました。

との情報があったので、その修正を加えるとエラーは発生しなくなりました。
作成したインデックスを元にした検索も正常に動いている様にみられます。

しかし、EUC-JP に指定している出力を止めてその後の処理に影響ないのでしょうか?
少々不安ですので、再確認させて下さい。