Namazu-devel-ja(旧)


[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]

filter/doccat.pl



DocCat 用のフィルタ doccat.pl を作成しました。
DocCat ver.3 で対応している -p オプション (ドキュメントの
プロパティ (subject, author などの情報取得) にも対応。
# まだ buggy でイマイチ > doccat -p

現在の Namazu (mknmz) は、

    あるメディアタイプを複数のフィルタがサポートしている
    場合、「フィルタのファイル名が辞書順で先のほう」の
    フィルタが採用される

となります。実際は script/mknmz.pl の load_modules() 使用している
glob の動作に依りますが。あとは load_filters() のフィルタの
評価の仕方に依存。

例えば wv (msword.pl) と DocCat (doccat.pl) の両方が有効な
状態で MS Word ファイルを処理させると doccat.pl が使用されます。

現在 CVS にある filter/* では、msword.pl, excel.pl などは
DocCat のほうが優先順位が低くなっているので、これを入れると
動作が変わってしまう。

さて、どうしようかな。

手元では、msword.pl などから DocCat 対応部分を取り除いたりの
作業もやりました。

-- 
SATOH Fumiyasu - fumiya @net-thrust.com, @samba.gr.jp, @namazu.org or ...
THRUST Co., Ltd. @ Fujisawa, Kanagawa, Japan - http://www.net-thrust.com
Samba-JP, aka `Samba Users Group Japan'      - http://www.samba.gr.jp
Apache-JP(?), aka `Japan Apache Users Group' - http://www.apache.or.jp
Namazu, a full-text search engine            - http://www.namazu.org

Attachment: doccat.pl
Description: Binary data