Namazu-devel-ja(旧)


[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]

Re: 全角半角変換



寺西です。

Dan Kogai wrote:
>  
> On Wednesday, June 4, 2003, at 01:23  PM, Tadamasa Teranishi wrote:
> > nkf 相当の変換が必要なんだろうとは思います。ただ、
> > EUC になったものを nkf で変換するのは無理みたい
> > (EUC半角カナ を入力すると、無視される)
> > ですので、Unicode から SJIS に変換した後、toeuc で EUC に変換
> > するといった面倒なことになるのかもしれません。
> 
> 実は Perl 5.8 なら、CP932 から Unicode
> への変換、機種依存文字の全角/半角化、そしてそれをEUC-JPに落とすと
> いうことが同一の Perl Script の中で全てできます。

まだ、Perl 5.8 に環境を限定することはできないだろうというのが、
悩ましいところです。

# 1,2ヶ月前に、すこしこの辺りの話をしていますが。

> これを利用したちょっとした Hook が、 Text::Kakasi 2.04 に入っているので
> 参照してみてください。
 
こちらは Perl 5.8 に限定されたのでしょうか。それとも、それ以前の
バージョンでも動作するように作られているのでしょうか。
それ以前のバージョンでも作られているのなら、是非ともそのルーチン
を持ってきたいですね。様々な漢字コード変換ツールを使うのは、
それだけでトラブルの元ですから。

なお、現状では様々な漢字コード変換ツールを使っているので、
Perl5.8 の環境では Encode に集約したいとは、個人的に以前から
思っています。

> これを利用すれば、NamazuのindexそのものをUTF-8で作るということも
> 可能なはずで、暇があれば取り組んでみたいのですがちょっと手いっ
> ぱいで....

mknmz, namazu 共に内部コードは EUC コードと仮定してコーティング
されている部分が沢山ありますので、書き直すのは結構大変かと思います。
ただ、将来的には内部コードを Unicode 等にした方がいいだろうと
思っています。
-- 
=====================================================================
寺西 忠勝(TADAMASA TERANISHI)  yw3t-trns@xxxxxxxxxxxxxxx
http://www.asahi-net.or.jp/~yw3t-trns/index.htm
Key fingerprint =  474E 4D93 8E97 11F6 662D  8A42 17F5 52F4 10E7 D14E