Namazu-devel-ja(旧)


[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]

Re: UTF-8 index



寺西です。

Yukio USUDA wrote:
> 
> > はい。ただし、これはインデックス対象となるファイル郡の話で、
> > テンプレート、rc ファイル類などはそうなっていなかったかと
> > 思います。そこら辺も全部何とかしたいと思っているわけです。
>
> mknmzでテンプレート等の複写をしているところを見ると
> ディレクトリ名やファイル名はasciiになっていることを前提として
> いるように思えますね。
> 設定ファイルのディレクトリ名やファイル名にもマルチバイト文字が
> 使えるようにするのですか?

ファイル名にマルチバイト文字が使える必要性はあまりないとは
思いますが、ディレクトリ名に関しては考慮したいと思っています。
(そうなれば、ファイル名も ascii 文字に限定することはないですが。)
 
そういう必要にせまられているわけではありませんが、考慮した設計
にはしたいものです。

> 同様の処理があちこちに散らばっているのでなるべく一つのルーチンに
> 集めていくのがよいと思っています。

とりあえず

・元コードページのパス -> UTF-8 変換処理関数
・UTF-8 パス -> 元コードページのパス変換関数

の 2 つを用意すればよいだろうと思っています。
そして、これらはインデックス対象ファイルに限らず、ファイル
全般で共通化できればと思っています。

また、UTF-8 でのディレクトリ名、パス、拡張子等の分解する関数等は
随時用意して集め、それを使うようなスタイルにしたいと思います。
 
> mknmzrcファイルは通常のファイルとして扱っておらず
...
> load_rcfileでは\を/に置き換えて使っているようですが
> 特殊なファイル名の読み込みの可否はperl次第かと思います。

はい。

> 設定ファイルをutf-8で統一していきたいが、設定ファイル内に
> テンプレートファイルの場所やreplaceディレクトリを
> 日本語ファイル名でそのままutf-8で記述される可能性がある。

むしろ、ファイル名を utf-8 で記述できるようにしたいという
感じでしょうか。

> mknmz側でこのutf-8で書かれたファイル名をcp932に戻してから
> アクセスする必要や、文書ファイル名と結合する必要がある。
> ということですね。

そうです。
他にもいろいろ応用したいと思っていますが、分かりやすいところは
上記のような内容になります。
-- 
=====================================================================
寺西 忠勝(TADAMASA TERANISHI)  yw3t-trns@xxxxxxxxxxxxxxx
http://www.asahi-net.or.jp/~yw3t-trns/index.htm
Key fingerprint =  474E 4D93 8E97 11F6 662D  8A42 17F5 52F4 10E7 D14E