[Namazu-win32-users-ja 1201] Re: pdftotextで日本語がテキスト抽出できない。

Yoichi TAKITA tackey @ takita41.org
2009年 8月 21日 (金) 20:38:43 JST


寺西さん

 反応ありがとうございます。


> >  5: http://www.foolabs.com/xpdf/download.html
> >    xpdf-japanese.tar.gzをダウンロード。展開。
> >  6: c:\namazu\bin\japanese\以下にコピー。
> 
> bin の下に置きますか...。
> 動作に何ら問題ないですけど、あまり bin の下なんかに置くもんじゃない
> ですよ。

 ↓にbinの下に置いているようでしたので、私もそうしてみました。

iwasaki jyunko wrote:
>XPDF:pdftotxt(xpdf-1.00-win32-ms.zip)
>   C:\namazu\bin\下に「xpdf-japanese,tar,gz」も
>   格納しています
http://www.namazu.org/ml/namazu-win32-users-ja/msg01308.html

 通常、どの辺りにjapaneseフォルダを置くのか、わからないのですが、
C:\namazu\share\locale\ja\japaneseに変更してみました。



> 出力時のエンコーディングをオプションで指定していませんからね。
> 
> xpdfrc の textEncoding で指定するか、コマンドのオプションを指定
> しましょう。
> 
> 例)
>   > pdftotext -enc Shift-JIS test.pdf test.txt

 xpdfrcを編集する方法、コマンドのオプション指定の二つの方法で
できることを確認しました。ありがとうございます。

-- 
Yoichi TAKITA 



Namazu-win32-users-ja メーリングリストの案内