[Namazu-users-ja 1143] Re: pdfのタイトルで検索をしたい

Tadamasa Teranishi yw3t-trns @ asahi-net.or.jp
2009年 1月 26日 (月) 20:16:43 JST


寺西です。

森田 光貴 wrote:
> 
> Namazuが2.0.16なのですが、サーバーの関連でupgradeできません。(借り物でして

現在、リリースバージョンの Namazu は 2.0.18 以外の選択肢はありません。
バージョンアップできない理由があるからといって、古いバージョンの
Namazu を使うべきではありません。
新しいバージョンの Namazu が使える環境でご利用ください。
バージョンアップが不可能ならば、Namazu を使わないことも考慮すべきです。

繰り返しますが、古いバージョンの Namazu は使うべきではありません。

> 紙媒体を取り込んだものが多いので、pdfファイルが多いのですが
> pdfファイルのタイトルでの検索を行おうとしていますが
> どうすればいいかわからない状態です。

用件が
1. PDF のみを対象としたい
2. タイトルを検索したい 
の2つでしょうか。

1 はいろいろと方法はあります。ひとつはフィールド検索で URI に pdf 
が含まれるものを検索する方法や、インデックスを作る際に pdf だけの
インデックスを作り、検索時にそのインデックスを指定する方法です。

2 はフィールド検索で、タイトルを検索すれば良いだけです。

+title:レベニンR

とか。

> ・サーバー
> Red Hat Enterprise Linux ES release 4 (Nahant Update 4)
> Kernel 2.6.9-42.0.3.ELsmp on an x86_64
...
> ・mknmz -C
> システム: linux
> Namazu: 2.0.16
> Perl: 5.006000
> File-MMagic: 1.25
> NKF: module_nkf
> KAKASI: module_kakasi -ieuc -oeuc -w
> 茶筌: no
> 和布蕪: no
> わかち書き: module_kakasi -ieuc -oeuc -w
> メッセージの言語: ja_JP.SJIS

Linux で ja_JP.SJIS を選択してはいけません。
EUC-JP 系をお使いください。

> ・タイトルに『レベニンR等』と記載している2009012601.pdfというファイル
> にpdfinfoを実行
> 
> Title:          R

pdfinfo に -enc オプションを指定するとタイトルも取り出せます。
また、Namazu の pdf フィルタではそれを使って取り出しています。
-- 
=====================================================================
寺西 忠勝(TADAMASA TERANISHI)  yw3t-trns @ asahi-net.or.jp
http://www.asahi-net.or.jp/~yw3t-trns/index.htm
Key fingerprint =  474E 4D93 8E97 11F6 662D  8A42 17F5 52F4 10E7 D14E



Namazu-users-ja メーリングリストの案内