[Kakasi-dev 62] Re: はじめまして
NOKUBI Takatsugu
knok @ daionet.gr.jp
2007年 9月 12日 (水) 07:41:15 JST
At Wed, 12 Sep 2007 03:30:48 +0900,
Tadamasa Teranishi wrote:
> > #1
> > kakasi は utf-8 の文字コードの処理はどのようにできますか?
> > -i utf8 などは効果がなさそうです。
>
> 現在リリースされているバージョンは UTF-8 に対応していません。
> cvs の開発バージョンは UTF-8 に対応しています。
すいません、リリースしようと思いつつまったくできていません。基本的に
バグ修正とUTF-8対応のみなので、開発版といっても十分安定して使える状態
にはあると思います。
> しかし、KAKASI は内部処理が EUC-JP で行われていますので、EUC-JP に
> 含まれない文字(UTF-8 から変換できない文字)は処理できません。
確かJISの区点コードをベースとしていたはずです。とはいえ、Unicodeで利
用できる文字集合全てをサポートしていないのはおっしゃる通りです。
> > #2
> > 功利 --> kouri
> > 小売 --> kouri
> > ローマ字表記が同じだといっても、この二つの単語の発音は違います。
> > ou -->[o:] と ou --> [o.u] のように。
>
> あなたにとっては問題なのでしょうが、多くの場合は問題ではありません。
いやまあ、音声合成方面ではたしかに必要な情報だと思います。発音情報で
あれば、ChaSen向けの辞書unidicが充実しています。
http://www.tokuteicorpus.jp/dist/
unidicはGalateaの一部である音声合成エンジンGalaTalkで使われています。
http://hil.t.u-tokyo.ac.jp/~galatea/index-jp.html
--
野首 貴嗣
E-mail: knok @ daionet.gr.jp
knok @ namazu.org / knok @ debian.org
Kakasi-dev メーリングリストの案内