Namazu-users-ja(旧)


[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]

Re: 検索結果の文字化け



古川です。

平田さんへ。お時間があったらでよいのですが…

pnamazu の中の tool2 というディレクトリに、nmzcheck.pl という
スクリプトがあります。問題となっているインデックスのあるディ
レクトリで、これを実行してみていただけますでしょうか。

このスクリプトは、インデックスが正しいかどうかをチェックする
ことにより、問題が検索側にあるのか、インデックスにあるのかを
切り分けるためのものです。

実行して、インデックスがどうおかしいのか (またはおかしくない
のか)、が分かると、問題点がはっきりすると思います。

# というつもりで作っているのですが、動作確認したインデックス
# は、それほど多くないので、うまく問題が抽出できるとよいので
# すが… (私のところの、「問題のあるインデックスのコレクショ
# ン」は、それほど沢山あるわけではないので)


From: Hajime BABA <baba@xxxxxxxxxxxxxxxxxxxxxx>
Subject: [namazu-users-ja] Re: 検索結果の文字化け
Date: Thu, 22 Mar 2001 17:25:45 +0900

baba> 前からぼんやりと考えていたことですが、mknmz 実行時に LANG=ja でな
baba> いと KAKASI, NKF その他を利用しないようになっていますが、これはや
baba> はり不親切というか混乱気味であるような気がしてきたのですがどうでしょ
baba> うか。つまり、表示メッセージを日本語にするかどうかを LANG (その他)
baba> で制御できるのは良いでしょうが、KAKASI や NKF を通すかどうかまでが 
baba> LANG に制御されるのはどうなんだろうかということです。

私としては、LANG はともかく、LC_MESSAGES が kakasi や nkf を
通すかどうかの制御に効いてしまうのは、とっても違和感がありま
す。


From: knok@xxxxxxxxxxxxx (NOKUBI Takatsugu)
Subject: [namazu-users-ja] Re: 検索結果の文字化け
Date: Thu, 22 Mar 2001 18:28:57 JST

knok>   さらにもう少しすすめて、なんらかの方法で index 対象のファイルがどの
knok> 言語/encoding のデータとして扱うべきかを指定できると、多国語化/国際化
knok> に近付けるのではないかとも思ってたりします。
knok>   具体的なアイディアを持っていないのがヨワいですが...

同じく、具体案を持ってないのが申し訳ないですが、方針としては
賛成です。

あるファイルがどんな言語なのかは、そのファイル自身の内容によ
って決まるものが優先されるべきで、逆に、たとえ LANG=ja であっ
たとしても、そのファイルが latin だったら、そのように扱われる
べきだと思います。

# とはいえ、「ファイル自身の内容によって決ま」らないものが、
# 相当数あるから、現状のようになっているのですよねぇ。きっと。

-- 
Rei FURUKAWA 
furukawa@xxxxxxxxxxxx