Namazu-devel-ja(旧)

[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]

Re: UTF-8 index

From: Yukio USUDA <usuda@xxxxxxxxxx>
Date: Mon, 01 Mar 2004 15:49:52 +0900
X-ml-name: namazu-devel-ja
X-mail-count: 03737
References: <4042D220.70A11416@asahi-net.or.jp>

臼田です

Tadamasa Teranishi wrote:
> > > nkf(1) より:
> > >        -x     通常おこなわれるX0201仮名->X0208の仮名変換をしないで、
> > >               X0201仮名を保存する。入力は、MS-Kanjiの1byte仮名、SO/SI、
> > >               ESC-(-I, SSOを受け付ける。出力は、日本語EUC中ではSSO、
> > >               JISでは ESC-'('-I を使う。
> > >
> > -xオプションを試したところ期待通りの動作をしました。
> > ファイル名を変換するときは"mXZ1"のかわりに"x"をつけて変換するように
> > すれば半角カナ問題はとりあえずは解決ですね。
> 
> 手元の環境ではうまく動いていないのですが、何か私勘違いしていますかね。
> (以下テストした内容です。"カタカナ" は半角です。)
> 
> $ echo "カタカナ" | nkf -xs | od -t xCa
> 
> 0000000 8e b6 8e c0 8e b6 8e c5 0a
>          so   6  so   @  so   6  so   E  nl
> 
> $ echo "カタカナ" | iconv -f eucjp -t sjis | od -t xCa
> 
> 0000000 b6 c0 b6 c0 b6 c5 0a
>           6   @   6   @   6   E  nl
> 0000007
> 
> 余計な 8e が入っているように見えます。
> 
8eはeuc-jpでの半角カナ（２バイト文字）の１バイト目です。
文字列が短すぎてsjisと区別がつかず
nkfが変換せずに通してしまったのではないでしょうか。
nkf -Exs として入力コードを教えてあげれば
期待通りの動作になると思います。

臼田幸生

Follow-Ups:
- Re: UTF-8 index
  - From: Tadamasa Teranishi

References:
- Re: UTF-8 index
  - From: Tadamasa Teranishi

Prev by Date: Re: UTF-8 index
Next by Date: Re: UTF-8 index
Previous by thread: Re: UTF-8 index
Next by thread: Re: UTF-8 index
Index(es):
- Date
- Thread