Namazu-devel-ja(旧)


[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]

Re: UTF-8 index



臼田です。

"Sakuma,Hiroaki" wrote:

> nkfは使っても構わないのですが,5.8が必須となるようだと困ります.Shift-JISや
> JISとの相互変換はUnicode::Mapでも出来ます.Perlのネイティブな機能を使ってい
> るところを,5.6でも使えるように対応して欲しいだけで,日本語コードの判定など
> はnkf任せで構わないと思います.
> 
国際化を念頭にutf-8化をしておこうと考えております。

ただし、日本語文書しか扱わないので古い環境でも動かしたいというニーズには可能な
範囲で対応していくつもりです。

内部utf-8にしていますが、Perl5.004で動かすことを考え、mknmz内ではバイナリデータ
として持ち歩いているだけでutf-8文字としては扱っていません。

nkf2に頼るのであればutf-8の日本語文書処理にPerl5.8もUnicode::Mapも不要です。
Perl5.6以前でnkf2がある場合はnkf2に処理をしてもらうようにしています。

今のところ、Text::Kakasi2.0でutf-8コードを分かちがきする際にはPerl5.8が
必須なのでそのような環境でテストしていますが、kakasiの次のリリースでutf-8が
サポートされればkakasiによる日本語分かちがきもPerl5.004環境でできるようにし
ます。

現状でもChasenやMecabもPerl5.8でなくてもutf-8の分かちがきができるはずなので
すが、私が試していないだけです。

臼田幸生