namazu-ml(avocado)


[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]

Re: pdf等の検索



Gorochan ^o^ <kunito@xxxxxxxxxxxxxxxxxxx> wrote:

>一太郎文書やword などいろいろありますから、mknmz がpdf からテキストを
>抜き出すなら、.mime.types みたいのを作って filter を定義するのはどうで
>しょうか?

すでにあるにはあるのです。 mknmz を見ると

| ## ヘルパー・プログラムと suffix の対応表 (man は例外)
| %HELPER_PROGRAMS = (
|     'gz'  => '/bin/zcat',
|     'Z'   => '/bin/zcat',
|     'man' => '/usr/bin/jgroff -man -Tnippon',
| );

といった定義があります。 フィルタは

1. ファイル名を引数にとって結果を標準出力に出す。

    % filter filename > kekka

2. 標準入力から読み込んで標準出力に出す。

    % cat filename | filter > kekka

の二つの仕様を満たしていなければなりません。


>そうすれば、各自のサイトで独自のフォーマットを使っている場合にも、
>filter さえ書けば対応できると思います。

はい。その通りです。

-- Satoru Takabayashi