Namazu-win32-users-ja(旧)

[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]

pdftotext 文字化けします

From: "西村　哲哉" <nisimura@xxxxxxxxx>
Date: Tue, 23 Jul 2002 14:42:05 +0900
X-ml-name: namazu-win32-users-ja
X-mail-count: 01416

初めまして西村と申します。

pdftotextコマンドでPDFファイルのテキストデータ（含日本語）を
取り出したいのですが、作成されたテキストファイルの
中身を見ると、日本語が文字化けしています。
半角英数字は取り出せているのですが、日本語が化けています。
過去メールなど見て試行錯誤しましたが、どうしてもうまくいきません。
その際、関係あると思われる、以下のようなエラーが返ってきます。

Error: Couldn't find cidToUnicode file for the 'Adobe-Japan1' collection
Error: Unknown character collection 'Adobe-Japan1'
Error: Unknown font tag 'G1'
Error: Unknown font tag 'G1'
Error: Unknown font tag 'G1'

<環境>
Windows2000 Professional
IIS5.0
Namazu 2.0.10

<設定>
・xpdf: version 1.01を使用
1. XPDF: ftp://ftp.foolabs.com/pub/xpdf/xpdf-1.01-win32.zip
C:\Program Files\Xpdfに展開。

2. Japanese Language Support Package:
ftp://ftp.foolabs.com/pub/xpdf/xpdf-japanese.tar.gz を
C:\Program Files\Xpdfに展開。

3. C:\Program Files\Xpdf\japanese\add-to-xpdfrc を編集
/usr/local/share/xpdf/japanese/を Windows のパス名に置き換える。
→C:\xpdf\japanese\ に変更

4. 編集した C:\Program Files\Xpdf\japanese\add-to-xpdfrc を
C:\Program Files\Xpdf\xpdfrc.txtの最後に追加。

5. pdftotext.exe のありかをPATHに追加

6. C:\namazu\share\namazu\filter\pdf.plを編集
73行目
変更前 system("$pdfconvpath -q -eucjp -raw $tmpfile $tmpfile2");
変更後 system("$pdfconvpath -q -enc EUC-JP -raw $tmpfile $tmpfile2");


どなたかご教授ください。よろしくお願いします。
-------------------------
　西村　哲哉
　nisimura@xxxxxxxxx

Follow-Ups:
- Re: pdftotext 文字化けします
  - From: Hiroshi ADACHI

Prev by Date: Re: どなたか Visio 用の Filter をテストして戴けないでしょうか
Next by Date: Re: pdftotext 文字化けします
Previous by thread: Re: どなたか Visio 用の Filter をテストして戴けないでしょうか
Next by thread: Re: pdftotext 文字化けします
Index(es):
- Date
- Thread