Namazu-devel-ja(旧)


[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]

Re: [RFC]${uri}の拡張(Re:[namazu-users-ja] Re: 検索結果のURLを日本語表示したい)



寺西です。

Tadamasa Teranishi wrote:
> 
> > Youichi Iwakiri wrote in <200312040857.RAA21888@xxxxxxxxxxxxxxx> :
> > >${uri:format}のformat部分に
> > >encode-cap, encode-sjis, encode-euc, encode-punyとか
> > >増やせば良さそうな気もしますが、もうすこし考えてみます。
> >
> > encode-punyは無意味でした。
> 
> 指定したり、指定しなかったりするものではなく、
> 日本語ドメインについては常に変換する必要があるのだと思います。

ちょろっと調べた限りでは、これらの変換はアプリケーション(今回は
Web ブラウザ)が行えば良いので、Namazu が対応することはないかな
と思いました。
(Web ブラウザには日本語ドメイン対応のものもありますし、補助ソフト
の助けが必要になる場合もあります。)

# まぁ Namazu 側で変換しておくと Web ブラウザが対応していない
# 場合でもリンク先にアクセスできるわけですが...。

で、
A. 日本語ドメインを sjis でも euc-jp でも何で書いても
Web ブラウザが正しく変換してくれるのなら問題はなさそうです。
(きちんと変換してくれるのかどうかは確認していません。)

また、
B. 日本語ドメイン部分が uri エンコードされている場合も
デコードした上で変換してくれるのなら、特に Namazu 側で対処
する必要はなさそうです。
# はたして本当にそうなっているか?

A, B に関して期待通り動いてくれるのなら、Namazu 側はドメイン部分も
気にせず Web サーバ側の漢字コードで uri エンコードしてしまえば
良いことになり、楽です。

A はしてくれるが、B はダメだということでしたら、日本語ドメイン
部分の uri エンコードを避けるように修正が必要になるでしょう。

A がダメだとすると、Namazu 側で変換することでリンク先にアクセス
できるようになります。しかし A がダメだというのなら、日本語ドメイン
はちゃんと使えるような状況ではないってことになるので、さすがに
そんなことはないかな。

気になるのは日本語ドメインに対応した Web ブラウザや変換アプリケー
ションごとに挙動が異なることはないかどうかですね。
# 同じライブラリを使っているなら差はでないものと思いますが。


どうやら、内部処理はどうするべきかについてはまだいろいろ調べない
決定できそうにありませんが、

> ${uri:format}  この形式を追加

この部分の仕様には影響しそうにないですね。

> いるのですが、ブラウザから直接指定した場合に様々な漢字コードで DNS 
> を引くことになって大丈夫なのかなと思ったりしてます。
> (sjis, euc-jp, etc... といろいろな漢字コードで DNS が引けるように
> なっているのかな。そうならいいけど、そうはなっていないような...。)

Web ブラウザが日本語ドメインに対応しているなら、ドメイン部は
様々な漢字コードを Punycode に変換して DNS にアクセスするという仕組み
なんですね。なるほど。
-- 
=====================================================================
寺西 忠勝(TADAMASA TERANISHI)  yw3t-trns@xxxxxxxxxxxxxxx
http://www.asahi-net.or.jp/~yw3t-trns/index.htm
Key fingerprint =  474E 4D93 8E97 11F6 662D  8A42 17F5 52F4 10E7 D14E