Namazu-users-ja(旧)


[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]

Re: はじめましてタイからの参加です。



<000901c135cb$f9259eb0$f6bdfea9@Aptiva>の記事において
nlug@xxxxxxxxxxxxxxxxxさんは書きました。

>> >   document にもありますが、例えば TCP/IP という 単語があると tcp/ip,
>> > tcp, ip をインデックスに記録します。この辺りがタイ語に対して余計な処理
>> > を行なっているのかもしれません。
>> 日本語でも、記号と単語(カッコ等)の混ざった変な言葉がインデックスされますが、
>> ドキュメントの方になぜかが書いてありましたので、動作に問題無いので気にしなく
>> ても大丈夫ではないでしょうか?

  私が書きたかったことを具体例を上げて説明してみます。

  たとえばタイ語で abc という単語があって、それが ASCII encoding では
x/y にみえるような場合だと、x, y が余計な単語としてインデックスされて
しまいます。
  こういう状況になるのではないかということを、

:   タイで利用される encoding については詳しくないのですが、もしかすると
: ASCII に相当する部分が利用されていると、このような問題が起きるかもしれ
: ません。

  という部分で示していたつもりです。

  しかし、今ちょっと tis620 のコード表をみてみたのですが、この予想は正
しくなかったようです ^^; 0x00-0x7f は ASCII と同じようでした。

>> マルティリンガルを目指すなら、Unicodeへの対応が必要だと感じます。開発版の方
>> がどのようになっているかは分かりませんが、近い将来、Unicodeに置き換わること
>> は他のプログラムを見ていても目に見えています。

  検索は言語に依存した処理も多くあるので、encoding 以外にも障害はいろ
いろあるだろうとは予測しています。Unicode (version 3?)だけで解決できな
い問題もあるでしょうし、それらも含めてどうすべきかは今後とも検討してい
かなければならないと思っています。
-- 
野首 貴嗣
E-mail: knok@xxxxxxxxxxxxx
	knok@xxxxxxxxxx / knok@xxxxxxxxxx