[Namazu-users-ja 79] Excel,pptファイルをフィルタDocCatでテキスト抽出するために、mknmzでインデックスを作成した際の問題

keiichiro.tanaka keiichiro.tanaka @ software.sanix.jp
2004年 10月 12日 (火) 14:30:25 JST


Namazuのテキスト抽出処理のためにmknmzでインデックス作成処理を実行したところ
エラーがでます。

下記コマンドにて実行
/usr/bin/mknmz -U --config=mknmzrc --checkpoint -O
/usr/local/apache/NAMAZU/DocDB /samba >> "/var/log/namazu/namazu.log"

下記のエラーメッセージが出ます。
Use of uninitialized value in pattern match (m//) at
/usr/share/namazu/filter/excel.pl line 89
Use of uninitialized value in pattern match (m//) at
/usr/share/namazu/filter/powerpoint.pl line 88

なお、ソースプログラムのファイル名は下記の通りです。
・OS:Redhut9
・WEB:apache_1.3.31
・Namazu:(検索エンジン):namazu-2.0.13
・Kakasi:Namazuよりインストール
・nkf:Redhut9よりインストール
・iconv:Redhut9よりインストール
・文書フィルタ
Word,Excel,PowerPoint兼用:DocCat
pdf用:xpdf-3.00、xpdf-japanese

excel.plファイルの関数の抜粋です(左が行数です)
84:sub filter ($$$$$) {
85: my ($orig_cfile, $cont, $weighted_str, $headings, $fields)
86: = @_;
87: my $err = undef;
88:
89: if ($convname =~ /xlhtml/i) {
90: $err = filter_xl($orig_cfile, $cont, $weighted_str, $headings, $fields);
91: } else {
92: $err = filter_doccat($orig_cfile, $cont, $weighted_str, $headings,
$fields);
93: }
94: return $err;
95:}

powerpoint.plファイルの関数の抜粋です(左が行数です)
83:sub filter ($$$$$) {
84: my ($orig_cfile, $cont, $weighted_str, $headings, $fields)
85: = @_;
86: my $err = undef;
87:
88: if ($pptconvname =~ /ppthtml/i) {
89: $err = filter_ppt($orig_cfile, $cont, $weighted_str, $headings,
$fields);
90: } else {
91: $err = filter_doccat($orig_cfile, $cont, $weighted_str, $headings,
$fields);
92: }
93: return $err;
94:}

エラーメッセージは出ますが正常に処理できているものもあるようで、検索処
理を実行するとExcelファイルpowerpointのファイルも検索で抽出されます。
なお、ログファイルにはエラーメッセージなどは出力されていません。

Word文書、html文書は全て無事に抽出処理できているようです。
DocCatを使用するため、Excel用文書フィルタxlhtml、ppt用文書フィルタppthtmlは使用していません。
xlhtml、ppthtmlはコマンドの検索で調べましたが、インストールしていませんでした。

申し訳ありませんが、原因がわからないのでどなたか教えていただけないでしょ
うか?

なお、mknmzの実行結果ログをファイルに出力しましたので添付します。


 
_/_/_/_/_/_/_/_/_/_/_/_/_/_/_/_/_/_/_/_/_/_/_/_/_/_/_/_/_/_/_/_/_/ 

     田中 慶一朗 (Keiichirou TANAKA)
_/_/_/_/_/_/_/_/_/_/_/_/_/_/_/_/_/_/_/_/_/_/_/_/_/_/_/_/_/_/_/_/_/ 

-------------- next part --------------
文字コード指定の無い添付文書を保管しました...
名前: namazu_org.log
URL:  http://www.namazu.org/pipermail/namazu-users-ja/attachments/20041012/b70311bb/namazu_org.diff


Namazu-users-ja メーリングリストの案内