Namazu-devel-ja(旧)


[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]

Re: libsgmt (Re: pluggable splitter)



Ryuji Abe <raeva@xxxxxxxxxxxx> wrote:

>C:\test> echo '日本語情報処理 1 2 3 4 ' | sgmt -k -s/
>
>を試してみると、kakasi.dllは読み込まれますが、出力結果
>が文字化けしてしまいます。言うまでもないですが、Shift_JIS
>の文字列を食わせています。

これは sgmt_kakasi_new で

    char *args[] = { "kakasi", "-ieuc", "-oeuc", "-w" };

と、入出力を EUC-JP に固定しているのが原因だと思います。

  C:\test> echo '日本語情報処理 1 2 3 4 ' | nkf -e | sgmt -k -s/ | nkf -s

と実行するとどうなりますか?

文字コードの扱いは悩ましい問題です。libsgmt の中で文字コード
の変換をするのか、あるいは、完全に libsgmt の外でやってもら
うか。どちらがいいと思います?

-- Satoru Takabayashi