[Namazu-win32-users-ja 1200] Re: pdftotextで日本語がテキスト抽出できない。

Tadamasa Teranishi yw3t-trns @ asahi-net.or.jp
2009年 8月 21日 (金) 00:50:56 JST


寺西です。

# Namazu の話じゃないけど...。

Yoichi TAKITA wrote:
> 
>  pdftotextで日本語部分がテキスト抽出できずに
> 困っています。
>  
>  手順は踏んでいるつもりで、MLの過去ログ等も漁って
> みましたが、原因がつかめていません。
>  なにか、わかりませんでしょうか?
...
>  4: exeファイル群とxpdfrcをc:\namazu\binにコピー。

これはまぁいいとして

>  5: http://www.foolabs.com/xpdf/download.html
>    xpdf-japanese.tar.gzをダウンロード。展開。
>  6: c:\namazu\bin\japanese\以下にコピー。

bin の下に置きますか...。
動作に何ら問題ないですけど、あまり bin の下なんかに置くもんじゃない
ですよ。

> ■実験結果
> 
>  ・日本語が含まれないpdfは問題なく、txtがはき出せます。
>  ・「てすと」の文字列を含むtest.pdfを
>   pdftotext test.pdf test.txt
>   とした所、test.txtは空行がのみで、テキスト抽出できていない。

出力時のエンコーディングをオプションで指定していませんからね。

xpdfrc の textEncoding で指定するか、コマンドのオプションを指定
しましょう。

例)
  > pdftotext -enc Shift-JIS test.pdf test.txt
-- 
=====================================================================
寺西 忠勝(TADAMASA TERANISHI)  yw3t-trns @ asahi-net.or.jp
http://www.asahi-net.or.jp/~yw3t-trns/index.htm
Key fingerprint =  474E 4D93 8E97 11F6 662D  8A42 17F5 52F4 10E7 D14E



Namazu-win32-users-ja メーリングリストの案内