Namazu-win32-users-ja(旧)


[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]

Re: pdftotext が Distiller で書き出された PDF から日本語を取り出せない件



榊です。自己レス・・・
下記件ですが、元ファイルをPDF Writerで焼き直すことで解決しました。
Distiller出力でも日本語を取り出せるファイルもありましたので、
設定次第でDistillerでもいけるのかもしれませんが、未検証です。

On Sat, 10 Feb 2001 23:34:28 +0900
s a k a k i <sakaki@xxxxxxxxxxxxx> wrote:

> pdftotextが、Acrobat Distiller 4.05 for Windowsで書き出したPDFから
> 日本語を取り出せないのです。(英語、数字は取り出せています。)
> 環境は、以下の通りです。
> --
> Solaris2.6
> nkf1.7
> Perl5.005_03
> xpdf0.92(./configure --enable-japanese --enable-opi)
> namazu2.0.5
> kakasi2.3.3
> --
> 
> SolarisおよびDOSのコマンドで直接pdftotextを実行させた場合、
> 下記のエラーをはき、出力されるテキストは英数だけになります。
> %pdftotext hogehoge.pdf hogehoge.txt
> Error:Unknown Type 0 charactor set: Adobe-Identify
> 
> 過去ログを検索した所下記のスレッドの現象のように思われます。
> Disttilerでフォント埋め込みをした場合日本語が抜き出せないというものです。
> http://www.namazu.org/ml/namazu-win32-users-ja/msg00501.html
> http://www.namazu.org/ml/namazu-win32-users-ja/msg00502.html
> このスレッドでは結論が出ていないようですが、この問題を回避するためにDistiller
> に必要な設定をご存じの方いらっしゃいますか?また、PDFを出力し直さなくても
> 解決する方法はあるのでしょうか?


―――――――――――――
有限会社ラクーン多摩
榊祐介
Mail:sakaki@xxxxxxxxxxxxx
Tel:042-339-5683
Fax:042-339-5684
―――――――――――――