Namazu-users-ja(旧)


[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]

日本語キーワードで検索するとヒットしない



杉山と申します。
標記の問題にぶちあたり困っています。ご教示いただけると幸いです。

linux 機に、Namazu 2.0.1, Kakasi 2.3.1 MHonArc 2.4.5 をインストール
し、メールを検索できるようにしようとしました。

MHonArcで、maillist.html, msg?????.html などができ、それは
Apache サーバーを通してちゃんと見えます。
次に mknmz で索引を作るのですが、test などの英単語ではちゃんと
検索できるのですが、たとえば「大学」で検索すると、ヒットしません。
大:0 学:0 :: 0 となっているようです。
では、まったく日本語がダメかというと、「野村」ではヒットします。
(これだけかどうかはわからないのですが、どうも例外的のようです。)

このメーリングリストのしばらく前の記事を拝見しますと、Perl の 5.004 
では問題があるという記事があったので、5.005_03 に入れ換えました。
それでも現象はかわりませんでした。
kakasi -w < test.txt で、わかち書きがうまくいっていることは確認
出来ました。

なお、これと関係があるのかどうかわかりませんが、MHonArc に、いろんな
漢字コードの混ざったメール群を流し込んでできた msg?????.html などを
もとに mknmz をし、それを namazu.cgi で検索すると、検索結果の表示が
文字化けします。ためしに、nkf でメール群を予め euc に変換しておいて
から処理すると、きちんと表示されます。漢字コードの変換がうまくいってい
ないということでしょうか。
ちなみに、nkf, NKF をインストールし、perl nkf_test.pl でチェックして
あるのですが。Text-Kakasiを入れてやってみても、やはりダメでした。

mknmz をしたときに、最後のメッセージが英語で表示されていると、
駄目なのでしょうか? mknmzrc を見ても、ja を設定するような箇所は
ないので、そのままで使っているのですが。(Namazu 2.0 入門 には、
LANG を設定するようにと書いてあるのですが、どこで設定すればいいの
でしょう。)

ご教授いただけると幸いです。

----
SUGIYAMA Shigeo  sugiyama@xxxxxxxxxxxxxxxxxxxxx

科学史と理科教育 http://hps2.sci.hokudai.ac.jp/~kaken/
科学史研究室 http://hps.sci.hokudai.ac.jp/history.html