Namazu-users-ja(旧)


[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]

Re: インデックス作成時のPDF文字化けについて



寺西です。

takako hirasawa wrote:
> 
> ところがPDFファイルの検索ですが、検索対象にはなっているよう
> ですが、検索で引っかからず色々試してファイル名では引っかかること
> が分かりました。検索結果のところにそのファイルの説明書きがでますが
> その文字が文字化けを起こしている状態です。そうすると検索対象になって
> はいるが、文字化けを起こしている為、検索文字列に引っかからないと
> いうことが想像できます。他のサーバーで試しましたが、正常に
> 検索できました。この文字化けを起こしている原因を知りたいと
> 思いメールしました。細かい情報が無いので雲をつかむ話かもしれませんが

これだけでははっきりとしたことはいえませんが、以下の条件があて
はまっているでしょうか?

1. PDF だけが文字化けする。また、文字化けは日本語部分である。
2. PDF のファイル名は日本語ではない。
3. pdftotext を使っている。

もし当てはまっているのであれば、おそらくは pdftotext(xpdf 全体)が
日本語対応していない古いバージョンなのか、日本語のモジュールが
インストールされていない、または設定に不備があるのではないで
しょうか?

とりあえず、pdftotext のバージョンは何でしょう。

<関連しそうなリンク>
http://www.namazu.org/ml/namazu-users-ja/msg02531.html
http://www.namazu.org/ml/namazu-users-ja/msg03140.html
-- 
=====================================================================
寺西 忠勝(TADAMASA TERANISHI)  yw3t-trns@xxxxxxxxxxxxxxx
http://www.asahi-net.or.jp/~yw3t-trns/index.htm
Key fingerprint =  474E 4D93 8E97 11F6 662D  8A42 17F5 52F4 10E7 D14E