Namazu-users-ja(旧)


[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]

Re: PDF のプロパティを検索する方法



寺西@久々の書き込みです。

永野 wrote:
> 
> PDFのデータは検索できるのですが、
> 
> プロパティ情報(タイトル/サブタイトル/作成者/キーワード)での
> 検索は可能でしょうか?

きちんとした回答ができませんが。
まず、pdftotext で出力されるテキストにプロパティ情報が出力されて
いるでしょうか? 確か含まれていないと思います。
ですので、検索できないということにないます。(少なくとも
今のところ)

プロパティ情報が出力されていれば、検索そのものは可能でしょうが、
タイトルに XXXX が含まれるものといった個別の検索まではむずかしい
でしょう。

pdfinfo というコマンドでは、

% pdfinfo acrobat4.pdf
Title:
Subject:
Keywords:     namazu test Acrobat4
Author:       test@xxxxxxxxxx
Creator:
Producer:     Acrobat PDFWriter 4.0 Windows
CreationDate: 20000215090710
ModDate:      20000215091117+09'00'
Pages:        1
Encrypted:    no
Linearized:   yes

というような出力が得られます。日本語に対応していれば
良いのですが、残念ながら対応していません。

英語でよければ、この出力を検索するようにフィルタを作成すれば
望みはかなうでしょう。
--
寺西