Namazu-devel-ja(旧)


[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]

Re: filter/apachcache.pl (Re: namazu-2.0.13pre4.tar.gz)



寺西です。

"Komai @home" wrote:
> 
> >どのようなデータを処理した場合、Base64 の文字列が切り出されてしまって
> >いるのでしょうか?
> 例えば、以下のようなメールです。
> もしかして、メーラの仕様の方が問題なのかもしれませんが。。

提示されたデータでは、きれいさっぱり削除されましたが。
# もっとも、テストにならないようなデータなので、再現性のあるデータ
# を提示していただかないと何とも。

> ただ、一つ自分の我が侭もあるのですが、Boundary処理だけばっさり
> やられると、添付ファイルのファイル名を検索したい!と思った時に
> 困るので、そこは是非とも残してもらいたい!なんていうようにも
> 思っています。

現状は基本的にばっさり削除されるのが普通の動作だと思います。
削除されないケースもあるかもしれませんが、それはバグですので、
再現性のあるデータを提示していただければ、修正できるかもしれません。

ここまでは現状の Namazu を修正することで何とかなると思います。
以下の話は次世代以降の Namazu での対応になるかなぁと思う話です。

また、マルチパートで添付ファイル名を残したいという話は、少し前にも
ありましたが、これが結構面倒な話なんですよね。
添付ファイル名に関しては、RFC に従っていないのが普通で、メーラごとに
ばらばらだったりするので、きちんとしたものを作るのが大変そうです。
(RFC に従うのも大変です。)
実装もそうですが、検証にもちいるデータを集めたりするのも厄介かも
しれません。

更に、明らかに検索には不要と思われる署名等の名前も切り出されてしまう
ので、添付するコンテンツの種類ごとに選択する仕組みを仕込まなければ
なりません。(ファイル名を残す Content-Type のリストをどこかに用意
するとか、.mknmzrc で設定できるようにするとか)

と、考えると、人と時間があればできそうなんだけど。
-- 
=====================================================================
寺西 忠勝(TADAMASA TERANISHI)  yw3t-trns@xxxxxxxxxxxxxxx
http://www.asahi-net.or.jp/~yw3t-trns/index.htm
Key fingerprint =  474E 4D93 8E97 11F6 662D  8A42 17F5 52F4 10E7 D14E