Namazu-win32-users-ja(旧)


[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]

Re: PDF ファイルの Indexing エラーについて



From: 小野泰史 <yasushi@xxxxxxxxxxxxxx> さん曰く
Subject: [namazu-win32-users-ja] Re: PDF ファイルの Indexing エラーについて
Message-ID: <4.2.0.58.J.20000428145352.00b16600@xxxxxxxxxxxxx>
Date: Fri, 28 Apr 2000 15:03:56 +0900

> >% pdftotext -q -eucjp in-file out-file 

>  早速やってみました。
>  問題のファイルでは...
> 
>         Error: PDF file is encrypted and cannot be displayed
>         Error: * Decryption support is currently not included in xpdf
>         Error: * due to legal restrictions: the U.S.A. still has bogus
>         Error: * export controls on cryptography software.
>         Error: Couldn't read xref table
> と、エラーメッセージがでてテキスト変換できませんでした。
>  やはり、暗号化されていることが原因のようです。
> 
> #でも、同じようにセキュリティロック掛けられているファイルでもうまく行くこと
>  もあるのです。不思議ですね。
> 
>  と言うことで、今回は諦めるしかないですね。
> 
> #PDFのIndexingですけれど、7000ファイルほどやって200ほどエラーが出ました。
> #殆どが暗号化ファイルの読みとり失敗でした。
> #暗号化されてないファイルは、100%うまく行きました。

ftp://www.isl.intec.co.jp/pub/person/ishida/freeware/pdf2txt/

にある pdf2txt (Perl script) は小野さんの持っている暗号化されて
いる PDF も text にできるかもしれません。(ただし、遅いです)

私は UNIX 上で(xpdf が make 出来たことが無いため)愛用しているの
ですが、

1. 暗号化されている(と思われる) file を自分で変換したことが無い。
2. Win32 上で動くかどうか全然わからない。:-)
3. それ以前に Win32 上でインストールできるかどうかもわからない。

という問題点があるのですが、挑戦されてみたらいかがでしょうか?

P.S.
ちなみに pdf2txt の TIPS に書かれている

TIPS> PDF ファイルをページ単位で全文検索用にインデックスを作成し、検索結果の
TIPS> URL をページ単位で指定したい場合は、Acrobat Reader 4.x の plug-in を
TIPS> 想定する場合、
TIPS> 
TIPS> 	<a href="foo.pdf#page=2">
TIPS> 			~~~~~~~
TIPS> 
TIPS> 上記のように指定します。この例では 2 ページ目にジャンプします。
TIPS> 数100〜数1000 ページに及ぶ PDF ファイルが全文検索の対象に含まれる場合は
TIPS> 有効と思われます。

を Namazu でやって喜んでいます。これとっても便利です。:-)

-- 
白井秀行 (mailto:shirai@xxxxxxxxxxxxxxxxxxx)