[Namazu-users-ja 1251] Re: PDF検索がコマンドでは結果が出るがCGIでは結果がでません

Tadamasa Teranishi yw3t-trns @ asahi-net.or.jp
2013年 5月 25日 (土) 16:02:35 JST


寺西です。

# ツッコミどころ満載なのですが、どこからつっこんでいきましょう
# かねぇ。

このメールの Subject: には、わざわざ「PDF検索が」と断り書き
がありますが、PDF 以外の文書ファイルの場合は正しく検索できる
のでしょうか?
それを確認しないで、PDF だけで試しているということは
ないですよね?

(2013/05/24 14:41), earlybirdsinging wrote:
> 環境ですが、
> さくらインターネットのVPSというサービスを使っています。
> CentOS 6
> httpd 2.2.15
> Perl v5.10.1
> kakasi 2.3.4
> namazu 2.0.21

えっと NKF は?

> こちらのサイト様を参考にしつつセットアップしました。
> http://centossrv.com/namazu.shtml

とんでもないこと書いてあるので、参考にしないことを
おすすめします。

> この状態でインデックスを作成し
> namazu 検索用語
> とすると、PDFファイルがヒットするのですがCGIとしてWEB
> から検索すると、「検索式にマッチする文書はありませんでした。」
> となってしまいます。

当然ですが、検索用語は namazu コマンド、namazu.cgi のどちらに
も同じ検索語を使っていますよね?
そしてそれは日本語が含まているのですよね。
namazu コマンドでヒットする日本語を含まない英単語を
namazu.cgi で検索した場合にはどうなりますか?

namazu.cgi が参照するインデックスは、namazu コマンドで参照
しているインデックスをきちんと指定していますか?
インデックスの指定方法分かっていますか?

> 試行錯誤した中で思ったのですが、NMZ.slogを見ると
> コマンドで打った検索語句は日本語表記、CGIからPOST
> されているものは文字化けしています。

文字化けと片付けられていますが、
EUC-JP で記録されていれば正しいです。EUC-JP 以外なら
アウトです。

あと、namazu コマンドで検索できていて、namazu.cgi でダメ
なら、インデックスの問題ではなく、namazu.cgi の問題なので
確認するべきところが違うでしょう。

> 文字コードの問題かと思い調べてみたのですが、さくらVPSのCentOS6は
> デフォルトコードが「C」となっており、「UTF-8」に変更してみて、
> mknmz xxxx | nkf -w として作成しましたが結果は変わりませんでした。

根本的なことですが、Namazu は UTF-8 に対応していません。
unix で日本語処理するには EUC-JP の一択です。

> XPDFの設定ファイルのxpdfrcの
> textEncoding           UTF-8 や EUC-JPとしても
> 変わりませんでした。

行き当たりばったりで適当に設定するのはやめましょう。

つづきは別メールで。
-- 
=====================================================================
寺西 忠勝(TADAMASA TERANISHI)  yw3t-trns @ asahi-net.or.jp
http://www.asahi-net.or.jp/~yw3t-trns/index.htm
Key fingerprint =  474E 4D93 8E97 11F6 662D  8A42 17F5 52F4 10E7 D14E


Namazu-users-ja メーリングリストの案内