namazu-dev(ring)


[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]

Re: divide filtering process.



<199907091627.BAA02472@xxxxxxxxxxxxxx>の記事において
masao@xxxxxxxxxxさんは書きました。

>> フィルター版自体ではなく、File::MMagicモジュールですが。
>> 
>> 自分のメールフォルダに対して適用して
>> どんな結果が帰ってくるかを試してみました。
>> # checktype_filename()を使ってます。
>> 
>> 総数:24161通
>> message/rfc822           24087通
>> message/news                66通
>> application/octet-stream     5通
>> text/plain;                  2通
>> text/html                    1通
>> 
>> 上記のような結果になりました。
>> う〜ん、きちんと認識されてますね。

  application/octet-streamその他に認識されたものがちょっと気になるので
すが、この辺りはどのようなデータが誤認されたのか、差し支えなければ教え
て頂けませんでしょうか?

<199907111405.XAA09730@xxxxxxxxxxxxxx>の記事において
satoru-t@xxxxxxxxxxxxxxxxxxさんは書きました。

  高林さんが指摘してくださった

・gzip.pl.inでdieしている問題
・readfile関数の実装

  は対処しました。漢字変換回りの追加はまだ行っていません。

  それから形式のファイルに関してですが、mknmz.pl.in内部で行っていた
backspaceによる強調表示表現の処理をman.pl.inにもって行きました。

>> よろしくお願いします。 Word文書や PDF用のフィルタも用意して
>> くださいませ。:-)

  了解です。

  とりあえず、Word文書に関してはmswordviewでHTMLに変換し、lvで
UTF8->EUC-JPに変換するのが手っ取り早くていいかな、と思っています。

# PDFは処理できる環境を整えるのが大変なので後回し。
-- 
野首 貴嗣
E-mail: knok@xxxxxxxxxxxxx (private)
        nokubi@xxxxxxxxx (official)