Namazu-win32-users-ja(旧)


[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]

pdftotext が Distiller で書き出された PDF から日本語を取り出せない件



榊と申します。

現在Solaris2.6上でPDFをnamazuで検索するシステムを構築中です。
その際表題の問題にぶつかりました。
解決方法をご存じでしたら、ご教授願います。

#どのMLで話すべきか迷いましたが、namazuの問題と言うよりPDFの問題で、他の
#MLではスレッドがたっていないようでしたので、win32に投げさせていただきま
#した。

pdftotextが、Acrobat Distiller 4.05 for Windowsで書き出したPDFから
日本語を取り出せないのです。(英語、数字は取り出せています。)
環境は、以下の通りです。
--
Solaris2.6
nkf1.7
Perl5.005_03
xpdf0.92(./configure --enable-japanese --enable-opi)
namazu2.0.5
kakasi2.3.3
--

SolarisおよびDOSのコマンドで直接pdftotextを実行させた場合、
下記のエラーをはき、出力されるテキストは英数だけになります。
%pdftotext hogehoge.pdf hogehoge.txt
Error:Unknown Type 0 charactor set: Adobe-Identify

過去ログを検索した所下記のスレッドの現象のように思われます。
Disttilerでフォント埋め込みをした場合日本語が抜き出せないというものです。
http://www.namazu.org/ml/namazu-win32-users-ja/msg00501.html
http://www.namazu.org/ml/namazu-win32-users-ja/msg00502.html
このスレッドでは結論が出ていないようですが、この問題を回避するためにDistiller
に必要な設定をご存じの方いらっしゃいますか?また、PDFを出力し直さなくても
解決する方法はあるのでしょうか?

以上、よろしくお願いします。
―――――――――――――
有限会社ラクーン多摩
榊祐介
Mail:sakaki@xxxxxxxxxxxxx
Tel:042-339-5683
Fax:042-339-5684
―――――――――――――