[Namazu-users-ja 1161] Re: mknmzにてPDFインデックス作成できない maybe copying protectionの表示

森田 光貴 mitsutaka-q @ umin.net
2009年 8月 25日 (火) 03:39:19 JST


ご返答ありがとうございます。
今度はテストとして

適当な単語を入力したexcelをPDF変換したファイル
普通のexcelファイル
普通のwordファイル
透明テキストが埋めこまれているWEB上から入手したファイル
テキストが埋め込まれていない紙媒体をスキャナーで取り込んだファイル
を変換してみたところ、以下のようになりました。

# mknmz

検索対象のファイルを調べています...
5個のファイルがインデックス作成の対象として見つかりました
1/5 - /mnt/share/test/Book2.pdf Unable to convert pdf file (maybe copying protection)
1/4 - /mnt/share/test/Book2.xls [application/excel]
2/4 - /mnt/share/test/word2.doc [application/msword]
3/4 - /mnt/share/test/%83I%83s%83I%83C%83h%82%CC%93%C1%92%A5%81E%83%82%83%8B%83q%83l%81E%83I%83L%83V%83R%83h%83%93%81E%83t%83F%83%93%83%5E%83j%83%8B%81E%83I%83L%83m%81%5B%83%80%81E%83I%83L%83V%83R%83%93%83%60%83%93.pdf Unable to convert pdf file (maybe copying protection)
3/3 - /mnt/share/test/%97%B0%8E_%83%7D%83O%83l%83V%83E%83%80%93%C5%90%AB%8A%D6%8CW.pdf Unable to convert pdf file (maybe copying protection)
インデックスを書き出しています...
[基本]
日付:                Tue Aug 25 03:16:40 2009
追加された文書の数:  2
サイズ (bytes):      33,792
合計の文書数:        2
追加キーワード数:    14
合計キーワード数:    14
わかち書き:          module_kakasi -ieuc -oeuc -w
経過時間 (秒):       8
ファイル/秒:         0.25
システム:            linux
Perl:                5.008008
Namazu:              2.0.19

やはりPDFファイルはすべて変換できないようです。
ちなみに紙媒体を取り込んだPDFファイルもPDFのタイトルは設定しているので
通常ならば対象ファイルになるものと思います。

完全にこの結果からPDFファイルに問題があるのではなく
当方のxpdfの設定がおかしいとは思うのですが。。。

念のためにpdftotextも実行しましたがすべてエラーでした。
/usr/local/etc/xpdfrcには記載しているつもりなのですが。

# pdftotext -enc ECU-JP Book2.pdf out.txt
Error: Couldn't find unicodeMap file for the 'ECU-JP' encoding
Error: Couldn't get text encoding
# pdftotext -enc ja_JP.eucjp Book2.pdf out.txt
Error: Couldn't find unicodeMap file for the 'ja_JP.eucjp' encoding
Error: Couldn't get text encoding
# pdftotext -enc eucjp Book2.pdf out.txt
Error: Couldn't find unicodeMap file for the 'eucjp' encoding
Error: Couldn't get text encoding

今回の検証に使用したPDFファイルを寺西様個人のアドレスに添付させていただきます。

よろしくお願いいたします。



Namazu-users-ja メーリングリストの案内