[Namazu-users-ja 1164] Re: mknmzにてPDFインデックス作成できない maybe copying protectionの表示

森田 光貴 mitsutaka-q @ umin.net
2009年 8月 26日 (水) 02:19:39 JST


お世話になります。
森田です。

タイプミスに全然気づきませんでした。失礼しました。
しかし、訂正を行っても結果は同様でした。

pdftotext -enc EUC-JP Book2.pdf out.txt
Error: Couldn't find unicodeMap file for the 'EUC-JP' encoding
Error: Couldn't get text encoding

> Namazu-users-ja#1156 では見過ごしましたが、ja_JP.eucjp や
> eucjp を xpdfrc に追加されていますが、どういう理由で追加されている
> のでしょう。

当初はnamazuでPDFだけではなくすべてのファイルの日本語の検索がうまくいかなくて
色々設定を変更していました。
その結果、mknmzを実行するときに
--indexing-lang=EUC-JPではなくて 
--indexing-lang=ja_JP.eucjpを付加すると日本語検索がうまくいっていたので
現在も上記のようにja_JP.eucjpを指定していました。それで念のためにja_JP.eucjp やeucjpを追加していました。
($ locale -a で表示される ja_JP.eucjp と同じ形式にするのがいいと思って。)

現在でも
--indexing-lang=euc-jp
--indexing-lang=eucjp
--indexing-lang=EUC-JP
を指定すると日本語の検索が正常に行えず
--indexing-lang=ja_JP.eucjpだと正常に検索できました。

 mknmz --indexing-lang=EUC-JP 
検索対象のファイルを調べています...
6個のファイルがインデックス作成の対象として見つかりました
1/6 - /mnt/share/test/Book2.pdf Unable to convert pdf file (maybe copying protection)
1/5 - /mnt/share/test/Book2.xls [application/excel]
2/5 - /mnt/share/test/texttest.txt [text/plain]
3/5 - /mnt/share/test/word2.doc [application/msword]
4/5 - /mnt/share/test/%83I%83s%83I%83C%83h%82%CC%93%C1%92%A5%81E%83%82%83%8B%83q%83l%81E%83I%83L%83V%83R%83h%83%93%81E%83t%83F%83%93%83%5E%83j%83%8B%81E%83I%83L%83m%81%5B%83%80%81E%83I%83L%83V%83R%83%93%83%60%83%93.pdf Unable to convert pdf file (maybe copying protection)
4/4 - /mnt/share/test/%97%B0%8E_%83%7D%83O%83l%83V%83E%83%80%93%C5%90%AB%8A%D6%8CW.pdf Unable to convert pdf file (maybe copying protection)
インデックスを書き出しています...
[基本]
日付:                Wed Aug 26 01:54:02 2009
追加された文書の数:  3
サイズ (bytes):      33,834
合計の文書数:        3
追加キーワード数:    46
合計キーワード数:    46
わかち書き:          module_kakasi -ieuc -oeuc -w
経過時間 (秒):       6
ファイル/秒:         0.50
システム:            linux
Perl:                5.008008
Namazu:              2.0.19

田中を含むファイルの検索時

参考ヒット数: { [ 田: 0 ] [ 中: 0 ] :: 0 } 
検索式にマッチする文書はありませんでした。と表示

# mknmz --indexing-lang=ja_JP.eucjp
検索対象のファイルを調べています...
6個のファイルがインデックス作成の対象として見つかりました
1/6 - /mnt/share/test/Book2.pdf Unable to convert pdf file (maybe copying protection)
1/5 - /mnt/share/test/Book2.xls [application/excel]
2/5 - /mnt/share/test/texttest.txt [text/plain]
3/5 - /mnt/share/test/word2.doc [application/msword]
4/5 - /mnt/share/test/%83I%83s%83I%83C%83h%82%CC%93%C1%92%A5%81E%83%82%83%8B%83q%83l%81E%83I%83L%83V%83R%83h%83%93%81E%83t%83F%83%93%83%5E%83j%83%8B%81E%83I%83L%83m%81%5B%83%80%81E%83I%83L%83V%83R%83%93%83%60%83%93.pdf Unable to convert pdf file (maybe copying protection)
4/4 - /mnt/share/test/%97%B0%8E_%83%7D%83O%83l%83V%83E%83%80%93%C5%90%AB%8A%D6%8CW.pdf Unable to convert pdf file (maybe copying protection)
インデックスを書き出しています...
[基本]
日付:                Wed Aug 26 01:50:04 2009
追加された文書の数:  3
サイズ (bytes):      33,834
合計の文書数:        3
追加キーワード数:    21
合計キーワード数:    21
わかち書き:          module_kakasi -ieuc -oeuc -w
経過時間 (秒):       8
ファイル/秒:         0.38
システム:            linux
Perl:                5.008008
Namazu:              2.0.19

田中を含むファイルの検索時
参考ヒット数: [ 田中: 1 ] 
検索式にマッチする 1 個の文書が見つかりました。

> Japanese support package の導入に問題がある可能性
> が高いと思います。
> どのように導入されたのでしょう。

ほとんどHPに公開されていた手順を真似しただけなのですが
下記のように行った後、

$ wget ftp://ftp.foolabs.com/pub/xpdf/xpdf-japanese.tar.gz
$ tar xvfz xpdf-japanese.tar.gz
$ cd xpdf-japanese
# mkdir -p /usr/local/share/xpdf/japanese
# cp -R * /usr/local/share/xpdf/japanese
# cat add-to-xpdfrc >> /usr/local/etc/xpdfrc

その後、上記の理由があったために手動で、ja_JP.eucjp や
eucjp を xpdfrcに加えていました。
今回、ご指摘をうけて削除いたしました。

> xpdfrc に下記の行がありますが、この場所にきちんとファイルがあり
> ますか? また、パーミッションの設定に問題ありませんか?

以下のようにemacsでファイル確認できました。
$/usr/local/share/xpdf/japanese# emacs EUC-JP.unicodeMap

000a 0a
000c 0c
000d 0d
0020 20
0021 21
0022 22
0023 23
0024 24
0025 25
0026 26
0027 27
0028 28
0029 29
002a 2a
002b 2b
002c 2c
002d 2d
・・・・

/usr/local/share/xpdf/japanese# ls -l
合計 312
-rw-r--r-- 1 root staff  1614 2009-08-21 19:51 #README#
-rw-r--r-- 1 root staff 77220 2009-08-08 15:36 Adobe-Japan1.cidToUnicode
drwxr-sr-x 2 root staff  4096 2009-08-08 15:36 CMap
-rw-r--r-- 1 root staff 66176 2009-08-08 15:36 EUC-JP.unicodeMap
-rw-r--r-- 1 root staff 65913 2009-08-08 15:36 ISO-2022-JP.unicodeMap
-rw-r--r-- 1 root staff  1614 2009-08-08 15:36 README
-rw-r--r-- 1 root staff 65988 2009-08-08 15:36 Shift-JIS.unicodeMap
-rw-r--r-- 1 root staff   556 2009-08-08 15:36 add-to-xpdfrc

現在rootで作業しているのでパーミッションの設定も問題ないように思えます。
あいかわらずエラーは消えません。
またご助言をお願いできますでしょうか?
よろしくお願いいたします。




Namazu-users-ja メーリングリストの案内