Namazu-devel-ja(旧)


[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]

Re: 全角半角変換



  元々(1.x時代)は、割と全角/半角文字の正規化はちゃんとしていたのではい
ないかと思います。

  各種 filter が増えてきたところで、その出力が変換するツールによってま
たさまざまに変化するようになってきていて、その辺りへのケアが不十分なま
ま現在に至っている、というのが私の認識です。
  扱いの明確なルールというのはないと思います。

At Wed, 04 Jun 2003 12:47:45 +0900,
Yukio USUDA wrote:
> taro7_10.plの出力で現在以下の3点が気になっています
> 1.丸数字、"−"、"〜"が消滅する。
> utf16->EUCの変換に用いているunicode.plがwindows系の
> 変換表CP932を使用していないためなのですが、通常
> 検索語に使う文字ではないだろうから無視しようと思って
> います。

  私もそれで問題ないと思います。

> 2.半角カナを全角にせずにEUCの2byte半角カナのまま出力し
>   ている。
> 3.全角英数、記号をそのまま出力している。
> codeconv.plに更にサブルーチンを設けるか、最後にnkfを通し
> て正規化を任すのがよいのかこのままにしておくのがよいのか
> 悩んでいます。

  Encode.pm の採用という最近の話題も考慮すると、やはり nkf に依存しな
い処理を用意する方向が良いように思います。
-- 
野首 貴嗣
E-mail: knok@xxxxxxxxxxxxx
	knok@xxxxxxxxxx / knok@xxxxxxxxxx