Namazu-users-ja(旧)


[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]

word ファイルのインデックス化がうまくいきません



はじめまして、佐藤@NEC山形です。
初投稿ですが、よろしくお願いします。

MSwordファイルのインデックス化がうまくいきません。
全てがインデックス化出来ないわけではなく、一部のファイルにおいて以下の
エラーが出てしまい、結果的に、存在するファイルより少ないファイル数しか
インデックスが作成されないという状況です。
プログラムのバージョンはこのようになっています。

 Linux 2.2.16-3
 Namazu 2.0.4
 perl version 5.005_03
 nkf 1.71
 Kakasi Version 2.3.2
 Chasen version 2.02
 Text-kakasi 1.04
 Text-chasen 1.03
 wvWare 0.5.43
 lv 4493
 xlHtml 0.2.6

wordファイルは全てmsword97で作成しています。
にもかかわらず対応可能なファイルと未対応のファイルが存在しています。
wvのエラーのようですが、どうすれば良いかわかりません。
日本語ファイル名のwordも対応できたり対応できなかったりしています。

なお、テキスト、エクセルのインデックスは正常に作成されます。

よろしくお願いいたします。

------------------------以下実行結果-----------------------------------------

% mknmz -o=/foo/bar/test/doc/
8個のファイルがインデックス作成の対象として見つかりました
wvError: (./laolareplace.c:64) OLE file appears to be corrupt, unable to extract streams
 /home2/namazu/index/doc/NMZ.word.tmp couldn't be opened as any known word document
1/8 - /home/sato/test/doc/5%D2%B0%D9%BB%B0%CB%DE%BD.doc 未対応の形式: unknown
wvWarning: There is no character run due to open but one should be, plugging the gap.
1/7 - /home/sato/test/doc/cctrable.doc [application/msword]
wvError: (./laolareplace.c:64) OLE file appears to be corrupt, unable to extract streams
 /home2/namazu/index/doc/NMZ.word.tmp couldn't be opened as any known word document
2/7 - /home/sato/test/doc/mail.doc 未対応の形式: unknown
wvError: (./laolareplace.c:64) OLE file appears to be corrupt, unable to extract streams
 /home2/namazu/index/doc/NMZ.word.tmp couldn't be opened as any known word document
・
・
・
2/4 - /home/sato/test/doc/navi.doc 未対応の形式: unknown
wvError: (./laolareplace.c:64) OLE file appears to be corrupt, unable to extract streams
 /home2/namazu/index/doc/NMZ.word.tmp couldn't be opened as any known word document
2/3 - /home/sato/test/doc/sov55sch.doc 未対応の形式: unknown
2/2 - /home/sato/test/doc/%89%EF%8Bc.doc [application/msword]
インデックスを書き出しています...
[基本]
日付:                Wed Nov  1 14:38:20 2000
追加された文書の数:  2
サイズ (bytes):      43,520
合計の文書数:        2
追加キーワード数:    412
合計キーワード数:    412
わかち書き:          module_kakasi -ieuc -oeuc -w
経過時間 (秒):       25
ファイル/秒:         0.08
システム:            linux
Perl:                5.00503
Namazu:              2.0.4
-------------------------------------------------------------------------------