Namazu-win32-users-ja(旧)


[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]

pdftotext 文字化けします



初めまして西村と申します。

pdftotextコマンドでPDFファイルのテキストデータ(含日本語)を
取り出したいのですが、作成されたテキストファイルの
中身を見ると、日本語が文字化けしています。
半角英数字は取り出せているのですが、日本語が化けています。
過去メールなど見て試行錯誤しましたが、どうしてもうまくいきません。
その際、関係あると思われる、以下のようなエラーが返ってきます。

Error: Couldn't find cidToUnicode file for the 'Adobe-Japan1' collection
Error: Unknown character collection 'Adobe-Japan1'
Error: Unknown font tag 'G1'
Error: Unknown font tag 'G1'
Error: Unknown font tag 'G1'

<環境>
Windows2000 Professional
IIS5.0
Namazu 2.0.10

<設定>
・xpdf: version 1.01を使用
1. XPDF: ftp://ftp.foolabs.com/pub/xpdf/xpdf-1.01-win32.zip
C:\Program Files\Xpdfに展開。

2. Japanese Language Support Package:
ftp://ftp.foolabs.com/pub/xpdf/xpdf-japanese.tar.gz を
C:\Program Files\Xpdfに展開。

3. C:\Program Files\Xpdf\japanese\add-to-xpdfrc を編集
/usr/local/share/xpdf/japanese/を Windows のパス名に置き換える。
→C:\xpdf\japanese\ に変更

4. 編集した C:\Program Files\Xpdf\japanese\add-to-xpdfrc を
C:\Program Files\Xpdf\xpdfrc.txtの最後に追加。

5. pdftotext.exe のありかをPATHに追加

6. C:\namazu\share\namazu\filter\pdf.plを編集
73行目
変更前 system("$pdfconvpath -q -eucjp -raw $tmpfile $tmpfile2");
変更後 system("$pdfconvpath -q -enc EUC-JP -raw $tmpfile $tmpfile2");


どなたかご教授ください。よろしくお願いします。
-------------------------
 西村 哲哉
 nisimura@xxxxxxxxx