[Namazu-devel-ja 110] フィルタ動作確認用スクリプト

Yukio USUDA m6694ha392t @ asahi-net.or.jp
2004年 9月 5日 (日) 00:14:46 JST


臼田です

フィルタの動作確認用にスクリプトを作成しました。

Namazu の pl/ ディレクトリに document.pl を入れて使ってください。
document.pl は mknmz から filter 関連のルーチンを取り出して作成したものです。

totext がテキスト抽出用のスクリプトです。1行目の perl のパスを書き換えて
フィルタ動作確認用に使ってみてください。使用法はファイルを指定するだけで
下記のような感じです。

$ pkgdatadir=. scripts/totext tests/data/ja/word97.doc
filename: tests/data/ja/word97.doc
mimetype: application/msword
author  : TA
title   : Namazu のテスト
content :

Namazu は手軽に使えることを第一に目指した日本語全文検索システムです。このファイルはテスト用です。
test @ namazu.org


mknmz が扱うことができるフォーマットは同じように扱えますが、多段フィルタには
対応していません。(filter 側も書き換えれば使えるようになると思います)

nmzgrep2 はインデックスの検索結果をもとに grep を行う nmzgrep を拡張したものです。
使い方は nmzgrep と同じで、テキストファイル以外も対象にできます。
document.pl の利用例として添付しています。


これらは、mknmz をリファクタリングしてファイルの判定やフィルタ部分を別クラス
に分けようと作業している途中のものですが、
2.0.14 向けの作業の中で Win32 でのフィルタ動作確認に寺西さんが高めの優先順位
をつけていたのでとりあえずの形にしました。
試してみてください。

臼田幸生
-------------- next part --------------
テキスト形式以外の添付ファイルを保管しました...
ファイル名: document.pl
型:         application/octet-stream
サイズ:     15839 バイト
説明:       無し
URL:        http://www.namazu.org/pipermail/namazu-devel-ja/attachments/20040905/04d8c12f/document.obj
-------------- next part --------------
テキスト形式以外の添付ファイルを保管しました...
ファイル名: totext
型:         application/octet-stream
サイズ:     2649 バイト
説明:       無し
URL:        http://www.namazu.org/pipermail/namazu-devel-ja/attachments/20040905/04d8c12f/totext.obj
-------------- next part --------------
テキスト形式以外の添付ファイルを保管しました...
ファイル名: nmzgrep2
型:         application/octet-stream
サイズ:     3018 バイト
説明:       無し
URL:        http://www.namazu.org/pipermail/namazu-devel-ja/attachments/20040905/04d8c12f/nmzgrep2.obj


Namazu-devel-ja メーリングリストの案内