Namazu-users-ja(旧)


[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]

Re: pdfファイルの検索について



寺西です。

平屋 宏記 wrote:
> 
> confirm 20030513141950869771743321 Hiroki Hiraya

今回メーリングリストに参加されたところなのかもしれませんが、

> 7.ではファイル名が表示されない件についてご教授願います。

こちらは、昨日の質問と同じ件だと思われますので、過去ログをまずは
お調べください。
 
> 検索画面でpdfファイルの名前で直接検索したところ、
> 
> 6. 5-7.pdf (スコア: 17)
>     著者: 不明
>     日付: Fri, 04 Jul 2003 14:27:15
>     TEL TEL TEL TEL TEL TEL TEL TEL TEL TEL TEL TEL TEL TEL TEL TEL TEL TEL TEL TEL TEL TEL TEL TEL TELTEL TEL TEL TEL HP FAXTEL FAXTEL FAXTEL E-mail
>     http://*/0302/pdf/5-7.pdf (1,166,709 bytes)
...
> 6.のファイルを
> pdftotext -q -euc EUC-JP でtxtに変換すると
> 日本語で読むことはできました。

変換したテキストファイルは何でどのようにして確認しましたか?
変換したテキストファイルを vi で開くとどうなりますか?
制御コードとTEL が大量に入っているということはありませんか?

基本的には pdftotext の変換結果のファイル先頭部分が summary に使われ
ます。(PDF のレイアウトで最初の部分とは限りません。)
pdftotext の結果と大きく異なるようでしたら、再現できる pdf ファイルを
ご用意していただければ、調査することは可能です。
-- 
=====================================================================
寺西 忠勝(TADAMASA TERANISHI)  yw3t-trns@xxxxxxxxxxxxxxx
http://www.asahi-net.or.jp/~yw3t-trns/index.htm
Key fingerprint =  474E 4D93 8E97 11F6 662D  8A42 17F5 52F4 10E7 D14E