[Namazu-users-ja 1165] Re: mknmzにてPDFインデックス作成できない maybe copying protectionの表示

Tadamasa Teranishi yw3t-trns @ asahi-net.or.jp
2009年 8月 26日 (水) 04:03:14 JST


寺西です。

森田 光貴 wrote:
> 
> 当初はnamazuでPDFだけではなくすべてのファイルの日本語の検索がうまくいかなくて
> 色々設定を変更していました。
> その結果、mknmzを実行するときに
> --indexing-lang=EUC-JPではなくて 
> --indexing-lang=ja_JP.eucjpを付加すると日本語検索がうまくいっていたので
> 現在も上記のようにja_JP.eucjpを指定していました。

ん〜。混同されていますが...。
mknmz の --indexing-lang オプションで指定する値は、環境変数 LANG 
や LC_ALL 等に指定する値でなければなりません。
つまり locale をサポートしている OS なら locale -a で出力される
値で、UNIX 系OS で日本語なら EUC-JP 系のものとなります。
つまり、ご利用の環境だと ja_JP.eucjp でなければなりません。

一方で xpdf の -enc オプションで指定できるのは xpdfrc に記述されて
いる文字列であり、EUC-JP 系のものなら、EUC-JP ということになります。

mknmz の --indexing-lang と xpdf の -enc オプションの値は同じもの
を指定するわけではなく、お互い独立しています。

当然、

> 現在でも
> --indexing-lang=euc-jp
> --indexing-lang=eucjp
> --indexing-lang=EUC-JP
> を指定すると日本語の検索が正常に行えず

となり、

> --indexing-lang=ja_JP.eucjpだと正常に検索できました。

となります。

話を xpdf に戻すと、
 
> > Japanese support package の導入に問題がある可能性
> > が高いと思います。
> > どのように導入されたのでしょう。
> 
> ほとんどHPに公開されていた手順を真似しただけなのですが

たぶん、手順には問題なさそうですが、xpdfrc が読み込めていないよう
です。

$ pdftotext -cfg /usr/local/etc/xpdfrc -enc EUC-JP file.pdf out.txt

でエラーが発生するなら、/usr/local/etc/xpdfrc を編集している間に
ファイルの内容を壊してしまっているのでしょう。
再度、中身を確認しましょう。

また、エラーが発生しないなら、xpdfrc の置き場所が違うということです。

$ strings `which pdftotext` | grep xpdfrc

で何と表示されるでしょう。
-- 
=====================================================================
寺西 忠勝(TADAMASA TERANISHI)  yw3t-trns @ asahi-net.or.jp
http://www.asahi-net.or.jp/~yw3t-trns/index.htm
Key fingerprint =  474E 4D93 8E97 11F6 662D  8A42 17F5 52F4 10E7 D14E



Namazu-users-ja メーリングリストの案内