Namazu-devel-ja(旧)


[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]

Re: namazu 2.0.13RC1動作確認(Cygwin 2人目)



寺西です。

Yukio USUDA wrote:
> 
> どうも./namazu.cgi を実行した検索結果のhtml出力が
> shift-jisで出てくるためeuc-jpでの「山」とマッチング
> していないようです。
> 出力されたhtml自体は文字コードはeucではないものの
> 問題はないようなのでこれは不具合ではないのかもしれません。

その後、いろいろと調べているのですが、手元で再現しないこともあって
これといったものが見つかっていません。

しかし、ja-namazu-cgi は

unset LANGUAGE
unset LC_ALL
unset LC_MESSAGES
unset LANG

として環境変数をクリアして

tmprc="$pwd/../src/.namazurc"
echo "Index $pwd" > $tmprc
echo "Lang ja" >> $tmprc

で、.namazurc を作成して言語の設定をしています。
ここは ja なので、nmz_codeconv_external により EUC-JP となって
いるはずです。(たぶん)
このため、検索結果は EUC-JP で出ているのではないかと思います。

fail する理由としては、
 1. 検索できなかった
 2. grep に失敗した
 3. wc に失敗した
ぐらいでしょうか。

 1 は、インデックス自体が壊れている、あるはインデックスの作成に
失敗している場合もあります。(ja-mknmz-1 に問題があるとか) 

 2, 3 に関しては上記のように unset LANG 他を行っていますので、
環境によっては日本語に対応ができていないということがあるのかも
しれません。

とりあえず、RC2 では

cd ../src
RESULT=`./namazu.cgi | grep 山 | wc -l`

部分を

cd ../src
./namazu.cgi >> $LOG
./namazu.cgi | grep 山 >> $LOG
./namazu.cgi | grep 山 | wc -l >> $LOG
RESULT=`./namazu.cgi | grep 山 | wc -l`

として、デバッグがしやすいようにします。

# test-log に Shift_JIS, EUC-JP が混在するのはちょっと気持ち悪い
# ですが。
-- 
=====================================================================
寺西 忠勝(TADAMASA TERANISHI)  yw3t-trns@xxxxxxxxxxxxxxx
http://www.asahi-net.or.jp/~yw3t-trns/index.htm
Key fingerprint =  474E 4D93 8E97 11F6 662D  8A42 17F5 52F4 10E7 D14E