Namazu-devel-ja(旧)


[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]

Re: UTF-8 index



臼田です

Tadamasa Teranishi wrote:
> > > nkf(1) より:
> > >        -x     通常おこなわれるX0201仮名->X0208の仮名変換をしないで、
> > >               X0201仮名を保存する。入力は、MS-Kanjiの1byte仮名、SO/SI、
> > >               ESC-(-I, SSOを受け付ける。出力は、日本語EUC中ではSSO、
> > >               JISでは ESC-'('-I を使う。
> > >
> > -xオプションを試したところ期待通りの動作をしました。
> > ファイル名を変換するときは"mXZ1"のかわりに"x"をつけて変換するように
> > すれば半角カナ問題はとりあえずは解決ですね。
> 
> 手元の環境ではうまく動いていないのですが、何か私勘違いしていますかね。
> (以下テストした内容です。"カタカナ" は半角です。)
> 
> $ echo "カタカナ" | nkf -xs | od -t xCa
> 
> 0000000 8e b6 8e c0 8e b6 8e c5 0a
>          so   6  so   @  so   6  so   E  nl
> 
> $ echo "カタカナ" | iconv -f eucjp -t sjis | od -t xCa
> 
> 0000000 b6 c0 b6 c0 b6 c5 0a
>           6   @   6   @   6   E  nl
> 0000007
> 
> 余計な 8e が入っているように見えます。
> 
8eはeuc-jpでの半角カナ(2バイト文字)の1バイト目です。
文字列が短すぎてsjisと区別がつかず
nkfが変換せずに通してしまったのではないでしょうか。
nkf -Exs として入力コードを教えてあげれば
期待通りの動作になると思います。

臼田幸生