Namazu-devel-ja(旧)


[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]

Re: EUC-JP strings in perl scripts



At Sat, 31 Jan 2004 15:20:07 +0900,
Tadamasa Teranishi wrote:
>  > (何でも日本語と同列に同じ処理ができるわけではないので、
>  > 言語にとわず共通の処理でできるラベルは、様々な言語を加えて記述し、
>  > ある言語依存の処理に使うラベルは、その言語のみで記述すると
>  > いったことになるのかもしれません。)
> 
> この辺りの話は、上記のコードレベルで手をいれる話と関係する
> ものとお考えください。

  了解です。

> >   util.pl に新たな関数を用意し、id に対応する text にかかれた文字列を
> > 取得するような形になっています。なので、そこで encoding の変換も同時に
> > 行うことはできそうです。
> 
> ええ、ただ現状は、内部コード(つまりは eucJP)と同じファイルを用意
> すれば済む話です。
> ファイルだけ UTF-8 で、eucJP に変換して使うことはできますが、今、
> このファイルを UTF-8 にするメリットはほとんどありませんし、この
> ファイルを UTF-8 化するのは後でも簡単にできるでしょう。
> 内部コードを UTF-8 にする方が先かと思います。

  UTF-8 にしようと思ったのは、各言語の情報をひとつのファイルにまとめる
ことが念頭にあったからで、言語ごとにファイルをわけるのであればまあ他の
エンコーディングでもいいのかな、とは思います。

> ここは意見をひっくりかえして、langspec.txt に詰め込んじゃいま
> しょうか? にしちゃいます。
> ただし、encoding の変換は行わないというのが条件ですね。
> 
> # もっとも、langspec.txt に詰め込んじゃったら、外国の方がちょっと
> # 拡張しようと思っても、無理かもしれません。ひいてしまうかも。

  かつて Debian では debconf.template というファイルに各種言語の翻訳情
報をまとめてもたせていたのですが、そのファイルをメンテナンスするには各
言語部分のみを別ファイルに分割したり、まとめたりするツールをつかって扱
うようになっていました。異なる encoding が template ファイルに含まれる
ことになったので、メンテナンス性はあまりよくなかったです。

> # 変換対象のファイルの言語が特定できれば、言語ごとに処理を変えられる
> # のかな。この辺りは、あまりよく理解できていません。 

  現状はそこまで柔軟にはなっていませんね... それが改善すべきことのひと
つだとは前々から思っていたのですが、機能として用意はできても、実際にど
うやって各種ファイルがどの言語用であるかを得られるのか、良い方法を思い
付きません。Apache の MultiView みたいなやりかたぐらいかなあ。

  さて、この問題のもともとの原因にたちかえると、最新の autotools の組
合せに対応しようとすると、xgettext が非アスキー文字列を発見して止まっ
てしまうという症状にあったからなのですが、どうしたものでしょうか。
  個人的には、なにはともあれ早く 2.0.13 をリリースしてしまうために、
stable branch では \xHH で対応してしまって、2.1 の方でいま議論している
ようなよりよい方法を実装する、という方向がいいのかな、と思うのですが...
-- 
野首 貴嗣
E-mail: knok@xxxxxxxxxxxxx
	knok@xxxxxxxxxx / knok@xxxxxxxxxx