Namazu-devel-ja(旧)

[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]

Re: UTF-8 index

From: Tadamasa Teranishi <yw3t-trns@xxxxxxxxxxxxxxx>
Date: Sun, 07 Mar 2004 12:26:47 +0900
X-ml-name: namazu-devel-ja
X-mail-count: 03782
References: <404A1125.794A920D@asahi-net.or.jp> <200403070310.AA01089@inspire_seed_pr.nifty.ne.jp>

寺西です。

"Komai @home" wrote:
>
> >その必要性を全く感じませんが。さて、何を心配されているのでしょう。
> 
> よく理解できていませんでした。ファイル中に、S-JISとUTF-8が部分的に存在
> しているような場合もあるかな？と思ったのですが、そういえば分かち書きに
> 渡す前に、すべてUTF-8 に変換という構想でしたね。。

はい。すべて一旦 UTF-8 にして処理するということです。

ところで、「ファイル中に、S-JISとUTF-8が部分的に存在する」状態という
のを正しく全て UTF-8 に変換したいというニーズは多々あるわけですが、
実際きちんと自動認識して変換することができるかというと、やはり
難しい問題です。(相互変換の話ではなくて、漢字コードの自動認識の問題
になります。)
これは UTF-8 に限らず EUC-JP であっても同じで、同じコードが割り当て
られている以上、100%完全に認識するのは困難です。

せめて行単位は同じ漢字コードであるとか限定条件があれば、自動認識を
行単位で行う等である程度回避することも可能ですが、1行の文字数が少ない
場合はやはり誤認する可能性がでてきます。

また、「ここから漢字コードは XXX です」といったタグのような付加情報
があれば、それを利用するということはできます。
-- 
=====================================================================
寺西 忠勝(TADAMASA TERANISHI)  yw3t-trns@xxxxxxxxxxxxxxx
http://www.asahi-net.or.jp/~yw3t-trns/index.htm
Key fingerprint =  474E 4D93 8E97 11F6 662D  8A42 17F5 52F4 10E7 D14E

References:
- Re: UTF-8 index
  - From: Tadamasa Teranishi
- Re: UTF-8 index
  - From: Komai @home

Prev by Date: Re: UTF-8 index
Next by Date: Re: Synced from HEAD
Previous by thread: Re: UTF-8 index
Next by thread: Re: UTF-8 index
Index(es):
- Date
- Thread