Namazu-users-ja(旧)


[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]

Wordファイルをインデックス化



みなさま、はじめまして。折出と申します。
よろしくお願いいたします。

過去にメーリングリストで何度か取り上げられております、Wordファイルの
検索についてお聞きします。

私の所でも、excelファイルについては正常にIndex化され、
検索するとHitするのですが、ことWordファイルについては、
以下のように「未対応の形式」として処理されてしまいIndex化されません。

==========
$ /usr/local/bin/mknmz -f ./.mknmzrc -O ./nmzIndex/ sample-nam
検索対象のファイルを調べています...
26個のファイルがインデックス作成の対象として見つかりました
1/26 - /sample-namazu/550CMU.pdf [application/pdf]
travel: cole: No such file or directory
2/26 - /sample-namazu/PHPonCobalt.ppt[application/powerpoint]
3/26 - /sample-namazu/SAMPLES.XLS [application/excel]
Use of uninitialized value in concatenation (.) at /usr/local/bin/mknmz
line 652, <GEN3> line 3.
xlhtml: cole: No such file or directory
4/26 - /sample-namazu/SOLVSAMP.XLS [application/excel]
5/26 - /sample-namazu/aaaa.html [text/html]
6/26 - /sample-namazu/index.html はサイズが 0 なので無視します
6/25 - /sample-namazu/index.html.ca [text/html]
7/25 - /sample-namazu/index.html.de [text/html]
- - - - - - - - - - >8 <Cut>
21/25 - /sample-namazu/index.html.zh [text/html]
22/25 - /sample-namazu/kaiyaku.pdf [application/pdf]
23/25 - /sample-namazu/server.doc 未対応の形式:unknown
23/24 - /sample-namazu/server.ppt[application/powerpoint]
24/24 - /sample-namazu/virus.doc 未対応の形式: unknown
インデックスを書き出しています...
[基本]
日付:                Tue Nov 12 17:51:36 2002
追加された文書の数:  23
サイズ (bytes):      2,533,821
合計の文書数:        23
追加キーワード数:    4,016
合計キーワード数:    4,016
わかち書き:          module_kakasi -ieuc -oeuc -w
経過時間 (秒):       40
ファイル/秒:         0.57
システム:            linux
Perl:                5.006
Namazu:              2.0.12

===============

以下のシステム環境でテストを行っております。

Red Hat Linux 7.2 Kernel 2.4.9-31 on an i686
wvHtml : 0.7.3
lv : v.4.49.4 (Aug.24th,2000)

===============

wvHtmlやlvのインストールが正常に行えていないかと思い
$ wvHtml server.doc server.html
を実行したところ、文字コードがUTF-8のHTMLファイルが生成され、
$ lv server.html
とすることでファイルを表示することができました。

Namazu 2.0.12でWordファイルをIndex化するにはどのようにすれば
よろしいでしょうか?

よろしくお願いいたします。