[Namazu-win32-users-ja 1201] Re: pdftotextで日本語がテキスト抽出できない。
Yoichi TAKITA
tackey @ takita41.org
2009年 8月 21日 (金) 20:38:43 JST
寺西さん
反応ありがとうございます。
> > 5: http://www.foolabs.com/xpdf/download.html
> > xpdf-japanese.tar.gzをダウンロード。展開。
> > 6: c:\namazu\bin\japanese\以下にコピー。
>
> bin の下に置きますか...。
> 動作に何ら問題ないですけど、あまり bin の下なんかに置くもんじゃない
> ですよ。
↓にbinの下に置いているようでしたので、私もそうしてみました。
iwasaki jyunko wrote:
>XPDF:pdftotxt(xpdf-1.00-win32-ms.zip)
> C:\namazu\bin\下に「xpdf-japanese,tar,gz」も
> 格納しています
http://www.namazu.org/ml/namazu-win32-users-ja/msg01308.html
通常、どの辺りにjapaneseフォルダを置くのか、わからないのですが、
C:\namazu\share\locale\ja\japaneseに変更してみました。
> 出力時のエンコーディングをオプションで指定していませんからね。
>
> xpdfrc の textEncoding で指定するか、コマンドのオプションを指定
> しましょう。
>
> 例)
> > pdftotext -enc Shift-JIS test.pdf test.txt
xpdfrcを編集する方法、コマンドのオプション指定の二つの方法で
できることを確認しました。ありがとうございます。
--
Yoichi TAKITA
Namazu-win32-users-ja メーリングリストの案内