Namazu-devel-ja(旧)


[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]

Re: UTF-8 index



臼田です

Tadamasa Teranishi wrote:
> 
> > 元のファイルはすべて読み込み済みであるので、フィルタモジュールには
> > 基本的には元のファイル名を用いた操作を許しておらず、
> 
> はい。ただし、これはインデックス対象となるファイル郡の話で、
> テンプレート、rc ファイル類などはそうなっていなかったかと
> 思います。そこら辺も全部何とかしたいと思っているわけです。
> -- 
mknmzでテンプレート等の複写をしているところを見ると
ディレクトリ名やファイル名はasciiになっていることを前提として
いるように思えますね。
設定ファイルのディレクトリ名やファイル名にもマルチバイト文字が
使えるようにするのですか?
ファイルアクセスしている処理を全部洗い出す必要がありますね。

同様の処理があちこちに散らばっているのでなるべく一つのルーチンに
集めていくのがよいと思っています。

mknmzrcファイルは通常のファイルとして扱っておらず
perlのソースをインクルードするような形で使っています。
shiftjisとパス区切りの\は相性が悪いので
load_rcfileでは\を/に置き換えて使っているようですが
特殊なファイル名の読み込みの可否はperl次第かと思います。

現状になくて用意したほうがよさそうなものが分ってきました。
設定ファイルをutf-8で統一していきたいが、設定ファイル内に
テンプレートファイルの場所やreplaceディレクトリを
日本語ファイル名でそのままutf-8で記述される可能性がある。
mknmz側でこのutf-8で書かれたファイル名をcp932に戻してから
アクセスする必要や、文書ファイル名と結合する必要がある。
ということですね。

ファイルアクセス前か設定ファイル読み込み時に
中に書かれたファイル名をutf-8からターゲットとしている
ファイルシステムの文字コードに変換する処理をはさみましょう。

臼田幸生