Namazu-users-ja(旧)


[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]

Re: はじめましてタイからの参加です。



<003f01c1317b$9e5cb9e0$0201a8c0@valis>の記事において
mailmag@xxxxxxxxxxさんは書きました。

>> 実はWin32版ではなぜかCTTEXがうまく稼動しないこととCTTEX自体
>> Win32版は古いものしかないことからSwathに乗り換えました。
>> ついでにあまっているマシンにRedhat7.1をインストールしてApache,perl
>> その他は変更なしで最新のNamazu.2.06で実験してみました。
>> swath自身の分かち書きは一部の辞書にない外来語や熟語を除けは
>> ほぼうまく分かち書きが出来ている事を確認済みです。
>> しかし、namazuでインデックスを作った後にNMZ.wを確認してみると
>> 分かち書きされた以上の分解や逆に意味のない造語のインデックスが
>> 出来ています。

  タイで利用される encoding については詳しくないのですが、もしかすると
ASCII に相当する部分が利用されていると、このような問題が起きるかもしれ
ません。
  document にもありますが、例えば TCP/IP という 単語があると tcp/ip,
tcp, ip をインデックスに記録します。この辺りがタイ語に対して余計な処理
を行なっているのかもしれません。

>> それとnamazu.cgiを利用した時にタイ語の特定の文字が文字化けします。
>> 例をあげればタイ語で先頭の文字が”<”という記号になります。

  これも encoding に絡んだ問題のように見えます。

  いずれにせよ、これが現状のせいいっぱいであって、きちんと encoding を
意識した実装をしないと完全な問題の解決はできないように思います。

>> もうひとつは報告例が無いようですがnamazu.cgiを使いクライアントの
>> IEから検索したときにWin98SEではサーチボタンをクリックした途端に
>> フリーズします。Win2Kでは問題は無いです。
>> ただし、このWin98SEはタイ語版です。

  これは client side の問題だと思います。
-- 
野首 貴嗣
E-mail: knok@xxxxxxxxxxxxx
	knok@xxxxxxxxxx / knok@xxxxxxxxxx