[Namazu-win32-users-ja 1051] Office2007の文書をインデックス化すると「未対応の形式」となる

ryusei kannami kryusei @ gmail.com
2007年 11月 14日 (水) 22:12:31 JST


こんにちは。リュウセイといいます。

Windows2003Serverでxdoc2txtを使ったnamazuの全文検索サイトを構築しました。
html、pdf、doc、xlsなどのインデックス化は正常に終了し検索結果
も見ることができるのですが、インデックス対象のディレクトリにOffice2007の
docxやxlsxをおいてmknmzを実行すると、
「
検索対象のファイルを調べています...
3個のファイルがインデックス作成の対象として見つかりました
1/3 -
/D|/www/sysimg/archive/%A5%D6%A5%EC%A1%BC%A5%F3%A5%B9%A5%C8%A1%BC%A5%DF%A5
%F3%A5%B0%A5%BB%A5%C3%A5%B7%A5%E7%A5%F3.pptx 未対応の形式 (application/octet-str
eam)無視します
1/2 - /D|/www/sysimg/archive/%C3%E6%B1%DB%B2%AD%C3%CF%BF%CC.docx 未対応の形式 (a
pplication/octet-stream)無視します
1/1 - /D|/www/sysimg/archive/%C7%E4%BE%E5%C9%BD.xlsx 未対応の形式 (application/o
ctet-stream)無視します
」
という結果となります。
何かの設定が足りないのでしょうか?
お判りの方がいらっしゃいましたら教えていただけると助かります。

環境は次の通りです。
■mknmz -Cの結果
読み込んだ設定ファイル: C:/namazu/etc/namazu/mknmzrc
システム: MSWin32
Namazu: 2.0.17
Perl: 5.008008
File-MMagic: 1.27
NKF: module_nkf
KAKASI: module_kakasi -ieuc -oeuc -w
茶筌: module_chasen -i e -j -F "%m "
和布蕪: module_mecab -Owakati -b 8192
わかち書き: module_kakasi -ieuc -oeuc -w
メッセージの言語: ja_JP.SJIS
言語: ja_JP.SJIS
文字コード: sjis
CONFDIR: C:/namazu/etc/namazu
LIBDIR: C:/namazu/share/namazu/pl
FILTERDIR: C:/namazu/share/namazu/filter
TEMPLATEDIR: C:/namazu/share/namazu/template
対応メディアタイプ:   (22)
未対応メディアタイプ: (18) 必要ツールが $path にないものには (-) を表示
  application/excel: xdoc2txt.pl
  application/gnumeric: gnumeric.pl
  application/ichitaro6: xdoc2txt.pl
  application/ichitaro7: xdoc2txt.pl
  application/macbinary: macbinary.pl
  application/msword: xdoc2txt.pl
  application/pdf: xdoc2txt.pl
- application/postscript: postscript.pl
  application/powerpoint: xdoc2txt.pl
  application/rtf: xdoc2txt.pl
- application/vnd.oasis.opendocument.graphics: ooo.pl
- application/vnd.oasis.opendocument.presentation: ooo.pl
- application/vnd.oasis.opendocument.spreadsheet: ooo.pl
- application/vnd.oasis.opendocument.text: ooo.pl
- application/vnd.sun.xml.calc: ooo.pl
- application/vnd.sun.xml.draw: ooo.pl
- application/vnd.sun.xml.impress: ooo.pl
- application/vnd.sun.xml.writer: ooo.pl
- application/vnd.visio: visio.pl
  application/x-apache-cache: apachecache.pl
- application/x-bzip2: bzip2.pl
- application/x-compress: compress.pl
- application/x-deb: deb.pl
- application/x-dvi: dvi.pl
  application/x-gzip: gzip.pl
  application/x-js-taro: xdoc2txt.pl
- application/x-rpm: rpm.pl
- application/x-tex: tex.pl
  application/x-zip: zip.pl
- audio/mpeg: mp3.pl
  message/news: mailnews.pl
  message/rfc822: mailnews.pl
  text/hnf: hnf.pl
  text/html: html.pl
  text/html; x-type=mhonarc: mhonarc.pl
  text/html; x-type=pipermail: pipermail.pl
  text/plain
  text/plain; x-type=rfc: rfc.pl
  text/x-hdml: hdml.pl
- text/x-roff: man.pl

■mknmzrc
$ALLOW_FILE = ".*\\.(?:$HTML_SUFFIX)|.*\\.txt" . # HTML, plain text
   "|.*\\.pdf|.*\\.ps" .      # PDF, PostScript
   "|.*\\.doc|.*\\.xls|.*\\.pp[st]" . # Word, Excel, PowerPoint
   "|.*\\.docx|.*\\.xlsx|.*\\.pp[st]x" . # MS-OfficeOpenXML Word, Excel,
PowerPoint
   "|.*\\.j[sabf]w|.*\\.jtd" .        # Ichitaro 4, 5, 6, 7, 8
   "|.*\\.rtf";                       # Rich Text Format

■mknmzの実行オプション
mknmz -O D:\namazu\var\namazu\index D:\www\sysimg\archive

■その他
WebServer:apache2.2.6
xdoc2txt1.26
ActivePerl5.8.8.822

以上です。
よろしくお願いいたします。
-------------- next part --------------
HTMLの添付ファイルを保管しました...
URL: http://www.namazu.org/pipermail/namazu-win32-users-ja/attachments/20071114/5e2c1cd9/attachment.htm


Namazu-win32-users-ja メーリングリストの案内