[Namazu-users-ja 760] Re: namazu の検索結果の修正について質問
Tadamasa Teranishi
yw3t-trns @ asahi-net.or.jp
2006年 5月 29日 (月) 15:46:31 JST
寺西です。
ishii kazuya wrote:
>
> > どちらかといえば、その csv ファイルから PDF
> > ファイルの情報を
> > 書き換えた方が良いのではないかと思いますが、ま、検索結
> 果を加工する
> > ことはできます。
>
> PDFファイルは1000個以上あるのですが、
> 一括で登録する方法を教えていただけませんでしょうか。
市販ソフト等にそういった機能があるものもあるかもしれませんが、
Acrobat SDK を使ってプログラムを書けば可能ではないかと思います。
# そもそもその PDF ファイルは何によって作られたのか分かりませんが、
# PDF を作成したソフトの問題なのではないかと思ったり...。
> NamazuとPerlのバージョンをあげてpdf.pl
> を編集に挑戦したいと思ったのですが、
Namazu 2.0.15 以前は使うべきではないです。
Namazu を使うなら 2.0.16 にバージョンアップしましょう。
> pdf.plの編集は私には難易度が高いかもしれません。
ということなら、Acrobat SDK でプログラムを書くのは更に困難かもしれ
ませんが...。
では、PDF の中身を書き換えるのはあきらめて、インデックスを直接書き
換える方法をお教えします。
csv ファイルの中身はわかりませんが、ここからファイル名の一覧ファイル、
タイトルの一覧ファイル、著者の一覧ファイル、文書作成日の一覧ファイル
を作ります。
各ファイルの行はそれぞれ対応するようにしてください。
例えば、ファイル名一覧ファイルの5行目のファイルのタイトルは、
タイトル一覧ファイルの5行目になっているというようにです。
(必然的に各ファイルの行数は必ず一致します。)
これらのファイルを用意した上で、mknmz に -F オプションで
ファイル名一覧ファイルを指定してインデックスを作成します。
無事インデックスが作成されれば、NMZ.field.uri の行数が先の行数と
ぴったり一致します。
一致したのを確認して、NMZ.field.subject の中身をタイトル一覧ファイル
の中身と差し替えます。
同様に NMZ.field.from の中身を著者の一覧ファイルの中身と差し替え、
NMZ.field.date の中身を文書作成日の一覧ファイルの中身と差し替えます。
その後、rfnmz を実行して変更内容をインデックスに反映します。
注意)
・一覧ファイルは UNIX 改行、漢字コードは EUC-JP で記述してください。
・ファイル名の一覧ファイルのファイル名はフルパスで記述してください。
・日付は rfc822time フォーマットで記述してください。
・インデックス更新の度(mknmz 実行する度)にこの処理を行う必要があり
ます。
--
=====================================================================
寺西 忠勝(TADAMASA TERANISHI) yw3t-trns @ asahi-net.or.jp
http://www.asahi-net.or.jp/~yw3t-trns/index.htm
Key fingerprint = 474E 4D93 8E97 11F6 662D 8A42 17F5 52F4 10E7 D14E
Namazu-users-ja メーリングリストの案内