Namazu-devel-ja(旧)


[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]

Re: attachment names in mailnews.pl



寺西です。

藤原 誠 / Makoto Fujiwara wrote:
> 
> >                                            千葉市中央区長洲
> >                                                    藤原  誠
> 寺西さん、反応ありがとうございます。
> 
> 寺> # name の切り出し方にも問題ないかい?
> 寺> フィールドの filename を使うべき(なのだが、content-type フィールドの

ここは、もうちょっときちんと name なり filename なりを切り出す
ように記述すべきでしょうという意味です。
そして、切り出すのなら filename を優先した方が気分的にすっきり
します。

# このパッチでは name でも filename でもマッチするだろうけど、大雑把
# (それ以外もマッチする)すぎるように思えるので。

> 寺> かもしれませんが、日本語の場合は生データ(漢字コードがばらばら)だった
> 寺> り、エンコードされていたりしたかと思いますので、様々なメーラから
> 寺> どのようなデータで確認されました?
> 
> 実はそこまでは考えていなかったのですが、
> 
> ------------
> > ls |wc
>      411     411    1540
> > grep -i name * | grep Content | ack -c
> code   kanji   kana kanji7  kana7    err  ascii   ctrl  other
> jis        0      0    196      0      0   9717    216      0
> ------------

grep した結果なので、ゴミも含まれているかもしれませんが、
ctrl の 216 個のデータは、大丈夫そうでしょうか?
# ゴミ(tab かな?)ならいいのですが、kanji7 より数が多いので...。

> (例えば) ... 62 は譜名です。
> 62:Content-Type: application/octet-stream; name="ヒアリングシート.xls";
> 62:Content-Disposition: attachment; filename="ヒアリングシート.xls)

本筋から離れますが、メーラの問題でしょうけど、
エクセルなら Content-Type: application/msexcel; にして欲しいなと
思いますね。

> なところで、
> > namazu -l ヒアリングシート /hoge/namazu-temp-test/
> foo/bar/62
> のような結果が(期待通り)出ています。
> 
> 元の名前には、生jis が入っているのだけれど、nkf で euc になって
> いるのでは、という気がします。

pre_codeconv で euc に変換できているということのようですね。

# そうすると漢字コードの問題はとりあえず大丈夫なのかな。

> (これって、いくつも添付書類があった場合、一つ目しか見ないですね多分)

いや、パートごとに処理しているから大丈夫そうに見えます。
ただ、ファイル名が連結されてしまうかもしれないので、空白は入れないと
いけないかもしれません。

> そういうことで、無条件に name の内容をいれるのではなくて、必要なもの
> (Content-Type でチェック?)だけを入れるのが良いかと思います。

もっとも種類が多いので、Content-Type で切り分けるのも大変かも
しれませんね。しかし何らかの制限を加えないことには...。
-- 
=====================================================================
寺西 忠勝(TADAMASA TERANISHI)  yw3t-trns@xxxxxxxxxxxxxxx
http://www.asahi-net.or.jp/~yw3t-trns/index.htm
Key fingerprint =  474E 4D93 8E97 11F6 662D  8A42 17F5 52F4 10E7 D14E