Namazu-users-ja(旧)


[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]

PDF ファイルでコメント部分に変なコードが入る場合の対策は?



横井です。

SunOS 5.5 にて
namazu 2.0.4
pdftotext version 0.90
を使っています。


検索対象にPDFファイルがある場合、コメント部分に16進数でA1 A0 という
コードが入っている事があります。
例、
http://www.pdf.co.jp/lib/pdf/calender/2000h1.pdf

これらの変なコードを取り除くにはどうしたらよいでしょうか?
shell上からpdftotext pdfto2000h1.pdf とすると
pdfto2000h1.txt にA1 A0 というコードが入っているので
namazu よりもpdftotext の問題の気がしますが...。
namazu をshell上から実行して、A1 A0を削るフィルターを通せばいいのかな?
みなさんはどう対策していますか?

========================
横井
yokoi@xxxxxxxxx
========================