namazu-ml(avocado)


[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]

Re: pdf等の検索



國頭です。

▲時刻 Sat, 10 Oct 1998 12:57:04 +0900 に
▲Kenji Suzukiさんの出した
▲Message-ID <v04010107b244868e6174@xxxxxxxxxxxxxxxx>の
▲[namazu:01316] pdf等の検索 という話題では...

Kenji> 仮に pdf をインデックスする場合,
Kenji> hoge.pdf というファイルがあって,それからテキストを抜き出した
Kenji> ファイルを hoge.pdf.txt とかでつくりますと,検索したときに
Kenji> 返す URL を元の URL に戻さないといけません.

Kenji> 一番楽なのは,mknmz 自体が pdfファイルからテキストを抜き出して
Kenji> くれるというものですが,どうでしょう.

一太郎文書やword などいろいろありますから、mknmz がpdf からテキストを
抜き出すなら、.mime.types みたいのを作って filter を定義するのはどうで
しょうか?

application/pdf にあたる拡張子の場合には 
/usr/local/bin/pdf2txt -option を呼ぶ 

というように定義しておくのです。helper program ですね。
mknmz はmime.types を見て filterを通す必要があればfilter を通す、
必要なフィルタがインストールされていなければ(open2() で失敗したら)無視
する。 

そうすれば、各自のサイトで独自のフォーマットを使っている場合にも、
filter さえ書けば対応できると思います。

こんなのはどうでしょうか?

  ====================================================================
|| 國頭 吾郎 (Goro Kunito) Tel 03-3812-2111 or 03-3814-4251(ext.6761) ||
||   東京大学工学系研究科電子情報工学専攻  羽鳥・相澤研究室 博士2年  ||
||                E-mail : kunito@xxxxxxxxxxxxxxxxxxx                 ||
  ====================================================================