Namazu-win32-users-ja(旧)


[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]

Re: pdf の全文検索の設定方法



足立@静岡 です。

satou さんは書きました:
>佐藤@大和鑑定です。
>【使用したPDF】
>石井さんのPostgreSQL本(通称:シーラカンス本(^^;)
>http://www.sra.co.jp/people/t-ishii/PostgreSQL/postbook/
>
>
>> 佐藤さんの環境では、日本語の検索が出来ているんですよね。
>> どこが違うのだろう。
>
>はい、Windows98SEとNT4.0ともに日本語の要約が表示されます。
>一度上記のPDFで試してみてはいかがでしょうか?
このpdfだと、うまく処理できます。
いろいろトライしてみると、出来るものと出来ないものがあるようです。

どうやら、acrobatには acrobat PDF writerと PDF Distiller の2つの作成方法が
あるのですが、前者で作ったものだとうまく日本語処理できて、後者だとダメみたい
です。新発見。
acrobat PDF writer は設定する項目がないですが、PDF Distiller はいろいろあり
ます。このあたりをいじってもう少しトライしてみます。


>上手くいかないPDFをコマンドレベルで変換したらどうなりますか?
これに従い、DOSプロンプトから手でやってみると、pdftotext.exeは 後者の場合
Error:Unknown Type 0 charactor set: Adobe-Identify 
をはきます。前者はエラー出ず。

>この場合EUCに変換されるので、私は以下のエディタを利用しています。
>TeraPad Ver 0.61 
>http://www2s.biglobe.ne.jp/~t-susumu/toclip/
私は秀丸使ってます。


うーん。pdf作成者全員に作成方法を指定できないし。困りました。