Namazu-win32-users-ja(旧)


[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]

Re: pdf の全文検索の設定方法



ども、佐藤@自宅です。

On Fri, 22 Dec 2000 10:23:14 +0900
Hiroshi ADACHI <adachi@xxxxxxxxxxxxxxxxxxxxxx> wrote:

> これらのことから、日本語の処理がうまくいっていないのではないか、と思ったの
> です。

以下のページを参考にしてPDFを試した所、インデックスが作成できました。
 http://www5.big.or.jp/~susumu/ih_pdfsearch/

【作業内容】
1.pdftotext.exe の準備
 ・http://www.foolabs.com/xpdf/ よりWindows版 xpdf-0.92-win32-ms.zip
  をダウンロード。
 ・zip を展開して pdftotext.exe を c:\namazu\bin へコピー
 ・実際に変換できるかテストしてみる。
  C:\temp>pdftotext -q あいう.pdf あいう.txt
 ・mknmz -C で確認
  対応メディアタイプに application/pdf が追加されていること。

2.gzip.exe の準備
 #これが必要かどうかは不明(^^;
 ・http://w3.gzip.org/ よりWindows版 gzip124xN.zip をダウンロード。
 ・zip を展開して gzip.exe を c:\namazu\bin へコピー

3.pdf.pl の修正
 ・C:\namazu\share\namazu\filter\pdf.pl をエディタ(メモ帳)で開き
  73行目を以下のように修正。
	system("$pdfconvpath -q -eucjp $tmpfile $tmpfile2");
     ↓
	system("$pdfconvpath -q $tmpfile $tmpfile2");
  "-eucjp"を外すだけです。

4.mknmz でインデックス作成
 mknmz -U -O C:\namazu\var\namazu\index C:\foo


【動作確認環境】
 ・Windows98SE + IE5.5
 ・namazu 2.0.5
 ・kakasi 2.3.2
 ・ActivePerl 5.6.0.620
 ・AN HTTPD 1.32f
 ・pdftotext 0.92(xpdf-0.92-win32-ms.zip)
 ・gzip 1.2.4
 ・AcrobatReader 4.0J

佐藤 充男
satou@xxxxxxxxxxxxxx