[Namazu-users-ja 993] namazuで透明テキスト付きPDF検索が出来ない

masaaki watanabe m.watanabe @ kaerunet.co.jp
2007年 11月 5日 (月) 15:46:42 JST


通常のPDF(Word等から生成したPDF)は検索出来るのですが、スキャナ等で読み
込み、e.TypistまたはScanPaperで透明テキスト付きPDFにすると検索してもHit
しません。
e.Typist等での確認では、ほぼ文字認識し、テキスト化されているようです。
認識後のテキストをコピーして、メモ帳とかに貼り付けても問題無く表示されま
す。
AcrobatでのPDF内検索では検索はOKでした。
namazuでindex化する場合には、何かオプションが必要なのでしょうか?
どなたかご指導お願い致します。
また、情報が少ないと思いますので、ご指摘もお願い致します。

環境:
・Freebsd6.2
・namazu2.0.17
・Perl5.008
・e.Typist v12.0体験版にて透明テキスト付きPDFに変換
・Index作成
 #!/bin/tcsh
 setenv LANG ja_JP.eucJP
 setenv LC_ALL ja_JP.eucJP
 setenv PEAL_BADLANG 0
 cd /usr/local/var/namazu/index
 /usr/local/bin/mknmz -U /usr/local/www/data/test -O /usr/local/var/namazu/index/test
・http.confにて、mod_encodingの設定
 <IfModule mod_encoding.c>
   EncodingEngine on
   SetServerEncoding EUC-JP
   AddClientEncoding "namazu" JA-AUTO-SJIS-MS SJIS
 </IfModule>
・namazurcの設定
 Lang ja_JP.eucJP




Namazu-users-ja メーリングリストの案内