Namazu-devel-ja(旧)


[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]

charset for encode filename (Re: Re: html-split について)



From: 小関 吉則 (KOSEKI Yoshinori) <kose@xxxxxxxxxxxxxxxxxx> さん曰く
Subject: [namazu-devel-ja] Re: html-split 	について
Message-ID: <2000Mar15ya7lvy9y.kose@xxxxxxxxxxxxxxxxxx>
Date: 15 Mar 2000 10:04:57 +0900

高林> >今のコードにUTF-8ベースの処理を付け加える必然性はさほど無いと思うので、
高林> >Namazuのインデックス全体をUTF-8ベースに変更する時についでに、
高林> >これらの変更も加えれば良いのではと思います。

高林> そうですね。当面は保留にします。

小関> 「html-split 機能を追加しました」でリリースすると FAQ になる
小関> と思いますよ。

ちょっと違う話(しかもレアケースかな)になるのですが、

● Win32 上で
c:/tmp/漢字:
  total 61
  drwxrwxrwx   2 shirai   5               0 Mar 14 14:46 .
  drwxrwxrwx  14 shirai   5               0 Mar 15 10:29 ..
  -rw-rw-rw-   1 shirai   5            7932 Mar 13 13:53 なまず.html

の様な日本語混じりのものを mknmz する。

● そうすると、
'/c|/tmp/漢字/なまず.html' => '/c|/tmp/%8A%BF%8E%9A/%82%C8%82%DC%82%B8.html'
という風に SJIS を encode したものになる。

● 上記で作った INDEX を UNIX(euc-jp ベース)に copy する。

● UNIX 上で 
% namazu 入門 ./
検索結果

参考ヒット数:  [ 入門: 1 ] 

検索式にマッチする 1 個の文書が見つかりました。

1. Namazu 2.0 tutorial (スコア: 8)
著者: developers@xxxxxxxxxx
日付: Mon, 13 Mar 2000 13:53:09
Namazu 2.0 入門 目次 本書の目的 開発の推移 Namazu の構成部品 準備と make 日本語環境での利用 make install 前の確認 help の表示 動作確認 mknmz mknmz の調整 動作確認 namazu Namazu でできること できない
/c|/tmp/xxx.html (21,292 bytes)
       ~~~~~~~~~ euc-jp として扱うので当然化け化けになる。

となります。逆の UNIX => Win32 でも同様でしょう。
というわけで、file 名を encode するときも euc-jp に変換してから
の方がいいと思います。

Win32 で --no-encode-uri のときも euc-jp にして保存すると動くで
しょうし。現状では、SJIS のまま書いちゃうので『不明問題』と同じ
になっちゃう。

-- 
白井秀行 (mailto:shirai@xxxxxxxxxxxxxxxxxxx)