namazu-ml(avocado)


[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]

pdf等の検索



ftp://paprika.noc.intec.co.jp/pub/person/ishida/freeware/pdf2txt/
が公開されていますが,html 以外のファイルの扱いについて,
みなさんどうされていますでしょうか?


仮に pdf をインデックスする場合,
hoge.pdf というファイルがあって,それからテキストを抜き出した
ファイルを hoge.pdf.txt とかでつくりますと,検索したときに
返す URL を元の URL に戻さないといけません.

一番楽なのは,mknmz 自体が pdfファイルからテキストを抜き出して
くれるというものですが,どうでしょう.


// Kenji Suzuki <kenji@xxxxxxxxxxxxx>