[Kakasi-dev 63] Re: はじめまして
Tadamasa Teranishi
yw3t-trns @ asahi-net.or.jp
2007年 9月 12日 (水) 11:52:30 JST
寺西です。
NOKUBI Takatsugu wrote:
>
> > しかし、KAKASI は内部処理が EUC-JP で行われていますので、EUC-JP に
> > 含まれない文字(UTF-8 から変換できない文字)は処理できません。
>
> 確かJISの区点コードをベースとしていたはずです。とはいえ、Unicodeで利
> 用できる文字集合全てをサポートしていないのはおっしゃる通りです。
確かに内部は区点コード体系なのですが、EUC-JP を基にした区点コード
です。
基にしたという表現は何ですけど...。入力がとでも読み変えてください。
区点コードと言うと、補助漢字や JIS X 0213 の第2面とかの話を出さない
といけなくなるので、複雑になるでエンコードで EUC-JP として話を省こう
としたのですが、正しくはないですね。
もう少し説明すると、JIS X 0208 はサポートしていますが、JIS X 0201 や
JIS X 0212 (補助漢字)や JIS X 0213 の第2面の漢字は KAKASI では
サポートしていません。(面はサポートしていない)
# 無論、いわゆる機種依存文字もサポートしていません。
> > あなたにとっては問題なのでしょうが、多くの場合は問題ではありません。
>
> いやまあ、音声合成方面ではたしかに必要な情報だと思います。発音情報で
> あれば、ChaSen向けの辞書unidicが充実しています。
# 話をご理解していただけないのは残念ですが...。
音声合成にとって必要な情報だとしても、KAKASI は音声合成向けに作られ
ているわけではないので、音声合成にとって問題であることは KAKASI の
一般用途にとっては別に問題ではないということです。
つまり
> これを問題とするのは、用途に依存した話です。
なわけです。
> そして、その用途に kakasi は向かないのでしょう。
ゆえに音声合成で使いたいのでしたら KAKASI は向いていないということ
になります。
--
=====================================================================
寺西 忠勝(TADAMASA TERANISHI) yw3t-trns @ asahi-net.or.jp
http://www.asahi-net.or.jp/~yw3t-trns/index.htm
Key fingerprint = 474E 4D93 8E97 11F6 662D 8A42 17F5 52F4 10E7 D14E
Kakasi-dev メーリングリストの案内