Namazu-devel-ja(旧)


[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]

Re: UTF-8 index



寺西です。

"Komai @home" wrote:
>
> >その必要性を全く感じませんが。さて、何を心配されているのでしょう。
> 
> よく理解できていませんでした。ファイル中に、S-JISとUTF-8が部分的に存在
> しているような場合もあるかな?と思ったのですが、そういえば分かち書きに
> 渡す前に、すべてUTF-8 に変換という構想でしたね。。

はい。すべて一旦 UTF-8 にして処理するということです。

ところで、「ファイル中に、S-JISとUTF-8が部分的に存在する」状態という
のを正しく全て UTF-8 に変換したいというニーズは多々あるわけですが、
実際きちんと自動認識して変換することができるかというと、やはり
難しい問題です。(相互変換の話ではなくて、漢字コードの自動認識の問題
になります。)
これは UTF-8 に限らず EUC-JP であっても同じで、同じコードが割り当て
られている以上、100%完全に認識するのは困難です。

せめて行単位は同じ漢字コードであるとか限定条件があれば、自動認識を
行単位で行う等である程度回避することも可能ですが、1行の文字数が少ない
場合はやはり誤認する可能性がでてきます。

また、「ここから漢字コードは XXX です」といったタグのような付加情報
があれば、それを利用するということはできます。
-- 
=====================================================================
寺西 忠勝(TADAMASA TERANISHI)  yw3t-trns@xxxxxxxxxxxxxxx
http://www.asahi-net.or.jp/~yw3t-trns/index.htm
Key fingerprint =  474E 4D93 8E97 11F6 662D  8A42 17F5 52F4 10E7 D14E