[Namazu-win32-users-ja 1199] pdftotextで日本語がテキスト抽出できない。

Yoichi TAKITA tackey @ takita41.org
2009年 8月 20日 (木) 20:00:46 JST


田北です。

 pdftotextで日本語部分がテキスト抽出できずに
困っています。
 
 手順は踏んでいるつもりで、MLの過去ログ等も漁って
みましたが、原因がつかめていません。
 なにか、わかりませんでしょうか?


■手順

 1: http://www.foolabs.com/xpdf/download.html
   のxpdf-3.02pl2-win32.zipをダウンロード
  
 2: C:\Program Files\Xpdf にファイルを展開。

 3: sample-xpdfrcをxpdfrcにリネーム。

 4: exeファイル群とxpdfrcをc:\namazu\binにコピー。
 5: http://www.foolabs.com/xpdf/download.html
   xpdf-japanese.tar.gzをダウンロード。展開。
 6: c:\namazu\bin\japanese\以下にコピー。
 7: add-to-xpdfrcを以下のように編集してxpdfrcの最後尾に追加。

#----- begin Japanese support package (2004-jul-27)
cidToUnicode	Adobe-Japan1	c:\namazu\bin\japanese\Adobe-Japan1.cidToUnicode
unicodeMap	ISO-2022-JP	c:\namazu\bin\japanese\ISO-2022-JP.unicodeMap
unicodeMap	EUC-JP		c:\namazu\bin\japanese\EUC-JP.unicodeMap
unicodeMap	Shift-JIS	c:\namazu\bin\japanese\Shift-JIS.unicodeMap
cMapDir		Adobe-Japan1	c:\namazu\bin\japanese\CMap
toUnicodeDir			c:\namazu\bin\japanese\CMap
#displayCIDFontTT	Adobe-Japan1	/usr/..../kochi-mincho.ttf
#----- end Japanese support package


■実験結果

 ・日本語が含まれないpdfは問題なく、txtがはき出せます。
 ・「てすと」の文字列を含むtest.pdfを
  pdftotext test.pdf test.txt
  とした所、test.txtは空行がのみで、テキスト抽出できていない。


■環境

 WindowsXP SP3
 Namazu 2.0.18
 Perl v5.8.9 built for MSWin32-x86-multi-thread

---- 
田北陽一/Yoichi TAKITA




Namazu-win32-users-ja メーリングリストの案内