Namazu-devel-ja(旧)


[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]

Re: UTF-8 index



  utf8 対応作業ありがとうございます > 臼田さん

At Mon, 01 Mar 2004 16:01:42 +0900,
Tadamasa Teranishi wrote:
> > 文字列が短すぎてsjisと区別がつかず
> > nkfが変換せずに通してしまったのではないでしょうか。
> > nkf -Exs として入力コードを教えてあげれば
> > 期待通りの動作になると思います。
> 
> なるほど。どうやら自動認識の場合の処理にバグらしきものがある
> ようで、そこそこ長い文字列の場合でも 8e が入ります。
> しかし、入力文字コードを指定してやれば期待通りに動くようですね。

  いわゆる半角かながまじると、自動認識は困難になるそうです。なのでまあ
ある程度はしかたがないのかなと思っていました。

  個人的には、エンコーディングの自動認識についてもひとつレイヤとして処
理を独立させるべきでは、と思っています。文字列からの推測だけでなく、
Apache で行うような、ファイル名にエンコーディング情報を付加する方法も
ありえますし、XML 宣言の encoding 指定みたいな方法もあります。そういっ
た諸々の情報を総合的に扱えるレイヤが欲しいな、と。

# とりあえず utf8index-branch を checkout してみたので、おいおいみてゆ
# こうと思います。
-- 
野首 貴嗣
E-mail: knok@xxxxxxxxxxxxx
	knok@xxxxxxxxxx / knok@xxxxxxxxxx