[Namazu-users-ja 1250] Re: PDF検索がコマンドでは結果が出るがCGIでは結果がでません

Tadamasa Teranishi yw3t-trns @ asahi-net.or.jp
2013年 5月 25日 (土) 16:20:54 JST


寺西です。

(2013/05/24 16:28), earlybirdsinging wrote:
> 説明不足でした。
> ja_JP.UTF-8 にしました。
> 情報が錯綜して申し訳ないのですが、
> システム:C
> xpdfrc:ja_JP.UTF-8
> の組み合わせだと、インデックスが出来るのですが
> システム:ja_JP.UTF-8
> xpdfrc:ja_JP.UTF-8
> の組み合わせだと、Unable to convert pdf file (maybe copying protection)
> と出てしまい、インデックスが出来ません。

先のメールに書いていますが、unix で日本語処理するには
EUC-JP 一択です。
システムにより異なりますが普通は ja_JP.eucJP を使います。

> 以下、システム:ja_JP.UTF-8での「mknmz -C | nkf -w」の結果です。
> (そのままだと一部文字化けしたのでnkf -wをつけました)

ja_JP.UTF-8 をサポートしていませんので、端末が UTF-8 だとしても
mknmz は UTF-8 では出力できません。

それはそうと mknmz -C の結果もツッコミどころ満載です。

> ----------------------------------------------------------------------
> 読み込んだ設定ファイル: /usr/local/etc/namazu/mknmzrc
> システム: linux
> Namazu: 2.0.21
> Perl: 5.010001
> File-MMagic: 1.27
> NKF: no

NKF の設定が no だと日本語処理できませんよ。
NKF の設定を見直しましょう。

てっとり早いのは NKF をインストールした後に、Namazu を
再インストールすることです。

> KAKASI: /usr/local/bin/kakasi -ieuc -oeuc -w
> 茶筌: no
> 和布蕪: no
> わかち書き: /usr/local/bin/kakasi -ieuc -oeuc -w
> メッセージの言語: ja_JP.UTF-8

UTF-8 はサポートしていませんので、ja_JP.eucJP とかで
ないとダメです。

> 言語: ja_JP.UTF-8

こっちもです。

> 文字コード: euc

とあるように内部は全て euc で処理していますので。
# ま、今時のシステムじゃないけどw

namazu コマンドで検索できて、namazu.cgi で検索できない問題とは
また別に、インデックスにも問題があるということになります。

pltests というのが、Namazu のソースに含まれているのですが、
Namazu をインストールしたら、それを実行してテストにパスするか
確認してください。

$ cd pltests
$ rm test-log
$ perl alltests.pl

もしテストに失敗するようなら、テスト結果と、test-log をお知らせ
ください。
それを見た方が問題点がよくわかります。
-- 
=====================================================================
寺西 忠勝(TADAMASA TERANISHI)  yw3t-trns @ asahi-net.or.jp
http://www.asahi-net.or.jp/~yw3t-trns/index.htm
Key fingerprint =  474E 4D93 8E97 11F6 662D  8A42 17F5 52F4 10E7 D14E


Namazu-users-ja メーリングリストの案内