Namazu-devel-ja(旧)


[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]

Re: WebDAVサーバの検索



Kenji です。


On Sun, 28 Sep 2003 18:21:18 +0900
Tadamasa Teranishi <yw3t-trns@xxxxxxxxxxxxxxx> wrote:

> 寺西です。

> > 1. nkf 2.02 で UTF-8ファイル名(が title になる場合)を無理矢理 EUC
> >    に変換
> > 2. 表示用の uri field を新設(<a href="A">B</a> の A と B を分離)、
> >    表示用の uri(B)は、url decode をかけ、nkf で EUC に変換
> > 
> > という ad hoc なものでしたが、どういう方法がいいでしょうか?
> 
> それで良いのではないかと思います。ファイル名が Shift_JIS の時も
> 同様な対処をしているはずですから。
> 
> 1. に関しては pl/gfilter.pl の filename_to_title 辺りで nkf を
> 通しているものと思います。

そうです。

> 現状では、Windows 環境の場合、Shitf_JIS から EUC に変換しています
> が、より一般化して全て toeuc を通すようにしても良いかもしれませんね。
> 
> ただし、短いファイル名の場合、nkf の文字コード自動認識では誤認する
> 可能性もないわけではないので、何らかの工夫も必要なのかもしれません。

現実に、4文字のディレクトリ名では、自動認識に失敗しました。
設定で UTF-8 固定のオプション(というか入力文字コードの固定)を
用意する必要があるかと思います。

ただ、ぼくの使い方だと、ファイル名は UTF-8 ですが、コンテンツは
SJIS だったり EUC だったりしていますので、コンテンツの文字コード
とは別になります。


> 2. に関してはファイル名が Shift-JIS の際でもうまく動いているはずな
> ので、何もしなくてもよさそうに思いますが、どうもそうではないという
> ことですね。
> ということは、潜在的なバグがあるとかかもしれません。
> よろしければ、もう少し状況を説明していただければ、助かります。

説明不足でした。これは、日本語ファイル名を人間が読めるように
したいということで、加えた変更です。例えば、

http://www.example.co.jp/%5B%5B%A5%EA%A5%E2%A1%BC%A5%C8%A5%C7%A5%B9%A5%AF%A5%C8%A5%C3%A5%D7%A4%F2%A4%EA%A4%CA%A4%B6%A4%A6%A4%C7%5D%5D

のような人間が読めないものではなく(上記は UTF-8 にはなってないですが例です)、

http://www.example.co.jp/リモートデスクトップをりなざうで 

と表示したい、ということです。

URL encode されたままの状態を許容すれば namazu の動作自体に
問題はありませんでした。


// Kenji