Namazu-win32-users-ja(旧)


[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]

Re: pdf の全文検索の設定方法



佐藤@大和鑑定です。

Hiroshi ADACHI <adachi@xxxxxxxxxxxxxxxxxxxxxx> wrote:

> 情報のご提供ありがとうございました。
> 早速やってみました。
> しかし残念ながら、従来と同様、インデックスは出来ますがやはり日本語の検索は出
> 来ないようです。(英数字は出来ます)

OSの違いが関係しているかもしれませんので、NTで試してみました。
日本語PDF を正常に処理できています。

なお、フィルタ pdf.pl は以下のどちらでも正常に動作するようです。
    system("$pdfconvpath -q -eucjp $tmpfile $tmpfile2");
    system("$pdfconvpath -q $tmpfile $tmpfile2");

【環境】
  ・Windows NT 4.0 Workstation (SP5)
  ・namazu 2.0.5
  ・kakasi 2.3.2
  ・ActivePerl 5.6.0.620
  ・AN HTTPD 1.32f
  ・pdftotext 0.92(xpdf-0.92-win32-ms.zip)
  ・gzip 1.2.4
  ・Acrobat Reader 4.05J(4.0 0421)

【DOSプロンプトで set した結果:抜粋】
全てデフォルトのインストールなので特殊なことは何もしていません。
----------------------------------------------------------------------
ComSpec=C:\WINNT40\system32\cmd.exe
HOME=C:\namazu
HOMEDRIVE=C:
HOMEPATH=\
ITAIJIDICTPATH=C:\kakasi\share\kakasi\itaijidict
KANWADICTPATH=C:\kakasi\share\kakasi\kanwadict
LANG=ja_JP.SJIS
MKNMZRC=C:\namazu\etc\namazu\mknmzrc
NAMAZULOCALEDIR=C:\namazu\share\locale
NAMAZURC=C:\namazu\etc\namazu\namazurc
Path=C:\namazu\bin;C:\Perl\bin;C:\WINNT40\system32;C:\WINNT40;
PROMPT=$P$G
SystemDrive=C:
SystemRoot=C:\WINNT40
TEMP=C:\TEMP
TMP=C:\TEMP
windir=C:\WINNT40
----------------------------------------------------------------------

【使用したPDF】
石井さんのPostgreSQL本(通称:シーラカンス本(^^;)
http://www.sra.co.jp/people/t-ishii/PostgreSQL/postbook/


> 佐藤さんの環境では、日本語の検索が出来ているんですよね。
> どこが違うのだろう。

はい、Windows98SEとNT4.0ともに日本語の要約が表示されます。
一度上記のPDFで試してみてはいかがでしょうか?


> xpdfのソースをダウンロードしてINSTALLファイルをよんでみたのですが、これによる
> と、日本語のとおるpdftotext.exeは、以下のオプションを付けてconfigureスクリプ
> トをはしらせろと書いてあるようです。ただし、これはUNIXシステムについての説明
> で、Winについては同様の記述はありません。
> 私、UNIXは殆ど知らないのですが、configureとはコンパイルしてexeを作り直すこと
> でしょうか。
> 佐藤さんが日本語検索が出来ているとすると、Winはこの機能を含ませて実行ファイル
> が作られているのでしょうか。

pdftotext は xpdf-0.92-win32-ms.zip をそのまま利用しているのでコンパイル
などは行っていません。ドキュメントは軽く読んだだけですが、このオプション
を付けて作られているのではないでしょうか。

上手くいかないPDFをコマンドレベルで変換したらどうなりますか?
この場合EUCに変換されるので、私は以下のエディタを利用しています。
TeraPad Ver 0.61 
http://www2s.biglobe.ne.jp/~t-susumu/toclip/


> 私の環境は以下の通りです。NTとAcrobat(readerではない)だけ異なります。

そうですね。今回はNTなのでAcrobatのみの違いとなりますが…
あとは全てのインデックスを削除して、作り直してみるくらいしか
思い浮かびません。
PDF が検索できると便利なのでがんばってくださいね。

大和不動産鑑定株式会社
情報システム部
佐藤 充男
satou@xxxxxxxxxxxxxxxxx
http://www.daiwakantei.co.jp/