Namazu-users-ja(旧)


[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]

pdftotext 文字が空白で出力されてしまう



中野と申します。

NamazuでPDFファイルを検索できるように、pdftotext(xpdf 0.9.2)をNEC UX4800上で利用しております。
いくつかのPDFファイルが検索にかからない現象を調査していて、pdftotextがPDFファイルをテキストに変換するときに
空白文字しか出力していない現象を確認しました。

もう少し調査を進めてみたのですが、どうやらPDFファイル中の特定のフォント(Arial)が使われている文字について
空白文字(0x20)で出力されてしまっているようです。
現在までに確認したフォントと動作確認結果は以下のとおりです。

Arial NG
MS Pゴシック OK
MS 明朝 OK
GothicBBB-Medium OK
Ryumin-Light OK

ちなみにLinux上で同じバージョンで同じPDFファイルで確認したのですが、正常動作していました。

どなたか原因と対策をご存知の方、いらっしゃいませんでしょうか?

中野 貴志