Namazu-devel-ja(旧)


[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]

Re: 長い単語の排除



寺西です。

# ちょっと古い内容ですが。

knok@xxxxxxxxxxxxx wrote:
> 
> > これなんですが、これだと
> >   message/rfc822, message/news,
> >   text/html; x-type=mhonarc
> > として認識される文書しか排除の対象にならないのではないでしょうか?
> 
>   その通りです。
> 
>   オプションの整理を行なったのは高林さんなのですが、その時にはそれらの
> フィルタにだけ適用すればあとは不要だろう、という判断があったようです。

そうですか。

最初 -u だけが削除対象とならなかったのは、他のオプションは対象の
ファイル形式に依存するものだからなのではないかと思ったのですが、
そうではなかったわけですね。

-r, -h は特定の形式に依存した情報を取り出すためのオプションですし、
-M はMHonArcで作成された HTML の処理を行わないオプションですから
これらの処理をフィルタで行うのは妥当だと思います。

-u に関しては、少々事情が異なるかと思ったわけです。メールに添付
することは多いのですが、単体のファイルとして存在することも
ありますし、各種ドキュメントファイルの中に存在することも、少なからず
あるように思います。

> > 普通の HTML ファイルにも存在する可能性はあるし、テキスト(Word や
> > PDF等も)にも入っているケースもあると思うので、オプションで排除
> > できるとうれしいのですが...。
> 
>   utils.pl あたりに移して、generic に利用可能な関数とした方がいいのか
> も知れません。

HTML に PGP等の公開鍵をつけている場合もあるかと思いますので、-u が
復活すると良いなぁと個人的には思っています。
uuencode_filter() で、PGP等の公開鍵まで排除できるかどうかは確認できて
いませんので、少し調べてみます。
-- 
=====================================================================
寺西 忠勝(TADAMASA TERANISHI)  yw3t-trns@xxxxxxxxxxxxxxx
http://www.asahi-net.or.jp/~yw3t-trns/index.htm
Key fingerprint =  474E 4D93 8E97 11F6 662D  8A42 17F5 52F4 10E7 D14E