Namazu-win32-users-ja(旧)


[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]

PDFtoTEXT で一部の PDF ファイルが変換出来ない件について



はじめまして、西と申します。

 このたび、namazuを導入した際に、日本語の変換が出来ない件に
ぶつかり、過去のML投稿を参照させて頂き解決できたのですが、こ
のMLに載っていない追加情報がありましたので、皆様の何らかのお
役に立てればと思い、投稿させて頂きます。

−現象
○一部のPDFファイルで日本語が変換されずに半角文字のみ変換される。

−原因(恐らく)
○xpdf-japanese.tar.gzに含まれるCMapファイルに不足しているファイルが
あります。

−解決方法
○Adobe Acrobat(製品)をインストールしたフォルダにResource\CMapフォルダ
があります(バージョン5.0の場合、通常は
C:\Program Files\Adobe\Acrobat 5.0\Resource\CMap)
このフォルダの中から以下のファイルをPDFtoTEXTのCMapフォルダに追加して
ください。(面倒くさかったらCMapフォルダごとコピーしても動作します。私
はそうしました)

Adobe-Japan1-90ms-RKSJ
Adobe-Japan1-90pv-RKSJ
Adobe-Jaoan1-H-CID
Adobe-Japan1-H-Host
Adobe-Japan1-H-Mac
Adobe-Japan1-PS-H
Adobe-Japan1-PS-V

 pdftotextの設定等はそのままで大丈夫です。

 私の環境では、この状態で、今のところ変換に失敗するPDFファイ
ルはありませんが、残念ながらすべての状況を調べた訳でもありませ
ん。また、当方では設定の間違いと同時になおしましたので、読めな
いPDFが読めるようになると確実に言い切れる訳でもありません。参
考程度でお願いします。まあ、やってみて変換できたらめっけもん程
度で…。
 また、バージョンも5.0のみでしか確認しておりませんので、もし
他のバージョンで調べて頂ける方がおられましたら、よろしくお願い
いたします。
------------------------------------------------
Toshiyuki Nishi -- dengaku@xxxxxxxxxxx