Namazu-win32-users-ja(旧)


[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]

Re: PDF ファイルの Indexing エラーについて



 奈良の久保といいます。

 横から便乗質問で失礼します。

> P.S.
> ちなみに pdf2txt の TIPS に書かれている
> 
> TIPS> PDF ファイルをページ単位で全文検索用にインデックスを作成し、検索結果の
> TIPS> URL をページ単位で指定したい場合は、Acrobat Reader 4.x の plug-in を
> TIPS> 想定する場合、
> TIPS> 
> TIPS> 	<a href="foo.pdf#page=2">
> TIPS> 			~~~~~~~
> TIPS> 
> TIPS> 上記のように指定します。この例では 2 ページ目にジャンプします。
> TIPS> 数100〜数1000 ページに及ぶ PDF ファイルが全文検索の対象に含まれる場合は
> TIPS> 有効と思われます。
> 
> を Namazu でやって喜んでいます。これとっても便利です。:-)

 先に、このことを fj.comp.lang.postscript で知り、Namazu-2.0 の
リリース時に PDF対応、と書かれていたので、特別なことをせずに、
ページ単位でインデックスができるものだと思っていました。ところが
実際に Namazu をインストールして見ると、文書フィルタに xpdf に付属する
pdftotxt が使われており、そのままでは PDF内に含まれているか否かしか
わからないようです。(私も、900ページほどの、あるマニュアルに対して
全文検索できるように、と始めました。)
文書フィルタをどう作ったらよいか、その手順がわからずに
困っています。今の文書フィルタのソースを眺めるしかないのでしょうか?
pdf2txt を使って、ページ単位のインデックスを作成する方法について、
読むべき文書へのポインタなど教えていただければ、と思います。
(環境は UNIX でも構いません。)

 順序が逆になりましたが、

> 1. 暗号化されている(と思われる) file を自分で変換したことが無い。
> 2. Win32 上で動くかどうか全然わからない。:-)
> 3. それ以前に Win32 上でインストールできるかどうかもわからない。

 pdf2txt 自体は、NT4上で使っています。付属のドキュメントだけで
インストール/動作まで辿り着けました。
(Perl は ActivePerl522+日本語パッチ)
暗号化された PDF については、暗号化の有無を気にせずに
使っていますので、変換できるかどうかはわかりません。
また、この通りまだ Namazu のことがよくわかっていませんので、
Namazu の文書フィルタに使えるかどうかもわかりません。

--
久保 善道
selvid@xxxxxxxxxxxx