Namazu-win32-users-ja(旧)


[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]

MS-Officeを使用しないインデックス作成についての報告



お世話になっております。
花井と申します。

かなり遅いですが、以前出ていた
「サーバーにMS-Officeを入れずにWORD,Excelの検索」
という話題に対しての、当方で行っている事例の報告です。
(当方環境での検証や、フィルターの調整に時間がかって遅くなりました。)


win32環境にてnamazuのフィルターに使用できる、コマンドラインから
MS-Office等のファイルを変換できるフリーのツールがありました。

下記URLにて公開されている、hishida様作成の「xdoc2txt」というツールです。
  http://plaza3.mbn.or.jp/~h_ishida/
(hishida様にはURLをnamazu-MLにて公開することをご承諾頂きました。)

*注意*
xdoc2txt自体の問題でない問題(ex.namazuのフィルターに使用した場合の不具合や
namazuのフィルターとしての使用方法等)についてxdoc2txtの作者様に問い合わせ
をすることはご遠慮下さい。


また、xdoc2txtを使用したフィルターのサンプルを下記URLにアップしました。
  http://www.geocities.co.jp/SiliconValley-Oakland/8718/namazu/index.html
(当方0からフィルターを作成できる技術がないためfilter/taro.plを元に改造
 させて頂きました。)

上記からmsword2.pl.txtをダウンロードしファイル名を「msword2.pl」に変更した
上でnamazuのフィルターのフォルダに配置して動作を確認できます。


当方では
・xdoc2txt.exeと(xdoc2txtに同梱の)zlib.dllをPATHの通ったフォルダに配置
・「¥namazu¥share¥namazu¥filter¥」フォルダにmsword2.plを配置
・念のために競合するmsword.plをmsword.pl.tmpにリネーム(これは不要かも?)
・.docを対象にするよう「¥namazu¥etc¥namazu¥mknmzrc」を書き換え
することでWORD95/97/2000のインデックス化に成功しております。

なお、当方ではWORDのインデックス化のみが必要だったためmsword2.plは
・application/msword
・application/rtf
のみを対象に作りましたが、xdoc2txtは下記フォーマットに対応しているため
それらのフィルターを開発することも可能と思われます。

[対応フォーマット]
.rtf	リッチテキスト
.doc	WORD ver5.0/95/97/2000
.xls	Excel ver5.0/95/97/2000
.ppt	PowerPoint 97/2000
.jaw/jtw 一太郎 ver5
.jbw/juw 一太郎 ver6
.jfw/jvw 一太郎 ver7
.jtd/jtt 一太郎 ver8/9/10/11/12
.oas/oa2/oa3	OASYS/Win
.bun	新松/松5/松6
.wj2/wj3/wk3/wk4/123	Lotus 123 
.wri	Windows3.1 Write 
.pdf	Adobe PDF

msword2.plにはコメントでExcel/PowerPoint/PDF/一太郎に対応できるような記述
を入れてありますが、それらの動作については未検証です。

「サーバーにMS-Officeを入れずにインデックス作成したい」という話題で
wvWareが紹介されていましたが、当方でwvWareを試したところ
・win32環境ではwvWareをコンパイルする環境を持っていない人が多い
・GnuWin32でwvWareのバイナリも配布しているが変換できないwordファイル
  が多い(※)と感じた
ためxdoc2txtを使用した事例として、紹介することに致しました。



※
GnuWin32にて配布のwvWare0.7.2を当方所有のwordファイル(約2000ファイル)に
対して使用してみての感想です。

変換できないファイルはコマンドラインからwvware.exeで直接変換してもエラー
ダイアログを出してしまいます。
そのためmknmz時は、mknmz自体がそこで止まってしまいます。

エラーになるのが数ファイルならば$DENY_FILEで除外しようと思いましたが、
あまりにも多い(当方所有のファイルで20ファイルに1ファイルくらいエラーになる)
ためwvWareでのインデックス作成を断念してwordファイルは検索対象外にしていま
した。

============================================================================
NECフィールディング.東日本CSD.テクニカルサポート部.花井 亮(はない あきら)
 http://www.geocities.co.jp/SiliconValley-Oakland/8718/
----------------------------------------------------------------------------