[Namazu-users-ja 58] Re: filter のカスタマイズについて

Yukio USUDA usuda @ hsba.go.jp
2004年 9月 10日 (金) 12:53:18 JST


臼田です

"西浦 竜一" wrote:
> 
> <わからないこと>
> ・テキスト専用のフィルタはどれか?
プレーンテキスト専用のフィルタはありません。
各フィルタは各種ファイルから不要な情報を削ってプレーンテキスト化
するためのものです。
その際にタイトル、著者等使用できる情報があれば抽出しています。
Namazuのフィルタの中にもテキストファイルの各種フォーマットを
扱うものがいくつもあります。
下記のようなフィルタが該当します。
html.pl, hnf.pl, hdml.pl, mailnews.pl, man.pl,
mhonarc.pl, rfc.pl, tex.pl, rtf.pl

> ・ファイルタイプの識別はどうやってやっているのか?
>  ・たぶん、拡張子で振り分けていると思うのですが、振り分けを行っているプログ 
> ラム?設定ファイル?はどれか?
ファイルの先頭数バイトのデータ、ファイル内に現れる特有の単語、拡張子
といったもので判断されます。
振り分けのための識別条件は各フィルタ内のadd_magic()で宣言することになります。
各フィルタ内の
$magic->addMagicEntry
$magic->addSpecials
$magic->addFileExts
に書かれている条件と Namazu の配布物に含まれる tests/data/ja/
の中のサンプルをエディタで開いて見比べるとだいたいわかります。

> ・フィルタのフォーマットについて、紹介している本、もしくはホームページがあれ 
> ば紹介していただきたい。
kenjiさんがまとめられた
http://www.namazu.org/~kenji/dekiru-namazu-filter.html.ja
がよいでしょう。
あとは上記のテキスト系のファイルを扱うフィルタを参考にされる
とよいと思います。

既にファイルのタグフォーマット等が決まっているようでしたら
メーリングリストに流せば具体的な意見も得られると思います。

臼田幸生




Namazu-users-ja メーリングリストの案内