[Namazu-users-ja 1237] pdf.pl for poppler

TANAKA Atushi atanaka @ hotcake.halfmoon.jp
2011年 9月 13日 (火) 23:42:16 JST


田中と申します。はじめまして。

namazu 2.0.20 (正確には、debian の namazu2-index-tools package の
Version 2.0.20-1.0+nmu1)での、mknmz による pdf file 処理の
問題を見つけました。

これに対処するための、pdf.pl 1.22.4.16 に対する patch をお送ります。
未検証ですが、CVS の pdf.pl 1.46 にも適用可能だと思います。
Ref. http://cvs.namazu.org/namazu/filter/pdf.pl?revision=1.46


以下、この背景を説明します。

まず、問題を述べます。password 等の protection のかかっていない pdf 
ファイルを mknmz で処理しようとしたところ、次のようなerror で処理
できませんでした:

 0, application/pdf; x-error=Unable to convert pdf file (maybe copying protectio
n)


推測ではありますが、この原因は、pdf.pl の内部で、pdftotext (と pdfinfo) を
呼ぶ場合の引数が不適切なためです。pdf.pl は pdftotext の version に応じ、
引数の付けかたを変えます。これは、xpdf の pdftotext では適切なもので
あったようです。

一方、最近良く使われている(らしい) poppler由来の pdftotext には、
上記 version の pdf.pl では対応できていません (CVS のも見てみましたが、
この点への対応は無かったようです)。

そこで、この推測に従って、poppler由来の pdftotext に適応させるための 
pdf.pl の patch を作りました。とりあえず、Copyright 表示を見て 
poppler由来か否かを判断してます。

一応、私の手元で試したところ、動いてはいるようです。


以上、御検討ください。

田中篤司

-------------- next part --------------
A non-text attachment was scrubbed...
Name: poppler.patch
Type: application/octet-stream
Size: 2360 bytes
Desc: 無し
URL: <http://www.namazu.org/pipermail/namazu-users-ja/attachments/20110913/3e5dea15/attachment-0001.obj>


Namazu-users-ja メーリングリストの案内