[Namazu-users-ja 1188] excelの特定のシートの文字列が検索できません。

蛭間 直道 n-hiruma @ tsrweb.co.jp
2010年 8月 27日 (金) 11:46:30 JST


北村と申します。

centos 5.2でexcelファイルの検索を考えております。
インデックスを作成し、検索を行えたのですが、特定のシートの
一部の文字列が検索できません。

例えば、「佐藤」という文字列が3シート目のセルに記述されたファイルが20件
あったとして、検索で引っかかる件数が5件となってしまいます
(件数の差は関係ありません。同一文字列に対しなぜか検索できるものとそうでないものがあります)

検索で引っかからない15件の中で全件中1件しかない文字列が
NMZ.wに記述されていませんでした。但し、1シート目に記述された文字列は
検索することができたので、特定のシートが検索対象になっていない?のが問題のようです。


また、以下の方法で検索することができました。
・対象のファイルをUTF-8形式、htmlで保存
・対象のファイルの1,2シート目を削除

これらで検索できることから、文字コードとよりは
ファイルサイズの制限やファイル自身に問題がありそうな気がしています。
excelのバージョンは2003です。


以下は設定です。

# mknmz -C
読み込んだ設定ファイル: /usr/local/etc/namazu/mknmzrc
システム: linux
Namazu: 2.0.20
Perl: 5.008008
File-MMagic: 1.27
NKF: module_nkf
KAKASI: /usr/local/bin/kakasi -ieuc -oeuc -w
茶筌: /usr/bin/chasen -i e -j -F "%m "
和布蕪: no
わかち書き: /usr/local/bin/kakasi -ieuc -oeuc -w
メッセージの言語: ja_JP.UTF-8
言語: ja_JP.UTF-8
文字コード: euc
CONFDIR: /usr/local/etc/namazu
LIBDIR: /usr/local/share/namazu/pl
FILTERDIR: /usr/local/share/namazu/filter
TEMPLATEDIR: /usr/local/share/namazu/template
対応メディアタイプ:   (41)
未対応メディアタイプ: (7) 必要ツールが $path にないものには (-) を表示
  application/excel: excel.pl
  application/gnumeric: gnumeric.pl
  application/ichitaro5: taro56.pl
  application/ichitaro6: taro56.pl
  application/ichitaro7: taro7_10.pl
  application/macbinary: macbinary.pl
- application/msword: msword.pl
  application/pdf: pdf.pl
- application/postscript: postscript.pl
  application/powerpoint: powerpoint.pl
- application/rtf: rtf.pl
  application/vnd.kde.kivio: koffice.pl
  application/vnd.kde.kpresenter: koffice.pl
  application/vnd.kde.kspread: koffice.pl
  application/vnd.kde.kword: koffice.pl
  application/vnd.oasis.opendocument.graphics: ooo.pl
  application/vnd.oasis.opendocument.presentation: ooo.pl
  application/vnd.oasis.opendocument.spreadsheet: ooo.pl
  application/vnd.oasis.opendocument.text: ooo.pl
  application/vnd.openxmlformats-officedocument.presentationml: msofficexml.pl
  application/vnd.openxmlformats-officedocument.spreadsheetml: msofficexml.pl
  application/vnd.openxmlformats-officedocument.wordprocessingml: msofficexml.pl
  application/vnd.sun.xml.calc: ooo.pl
  application/vnd.sun.xml.draw: ooo.pl
  application/vnd.sun.xml.impress: ooo.pl
  application/vnd.sun.xml.writer: ooo.pl
  application/vnd.visio: visio.pl
  application/x-apache-cache: apachecache.pl
  application/x-bzip2: bzip2.pl
  application/x-compress: compress.pl
- application/x-deb: deb.pl
- application/x-dvi: dvi.pl
  application/x-gzip: gzip.pl
  application/x-js-taro: taro7_10.pl
  application/x-rpm: rpm.pl
- application/x-tex: tex.pl
  application/x-zip: zip.pl
- audio/mpeg: mp3.pl
  message/news: mailnews.pl
  message/rfc822: mailnews.pl
  text/hnf: hnf.pl
  text/html: html.pl
  text/html; x-type=mhonarc: mhonarc.pl
  text/html; x-type=pipermail: pipermail.pl
  text/plain
  text/plain; x-type=rfc: rfc.pl
  text/x-hdml: hdml.pl
  text/x-roff: man.pl



# namazu -C
読み込んだ設定ファイル: /usr/local/etc/namazu/namazurc
--
インデックス (Index):    /usr/local/var/namazu/index
ログの記録 (Logging):    on
使用する言語 (Lang):     ja_JP.UTF-8
スコア計算 (Scoring):    tfidf
テンプレート (Template): /usr/local/share/namazu/template/
ヒット件数の上限 (MaxHit):      10000
マッチする語の上限 (MaxMatch):  1000
強調タグ (EmphasisTags): <strong class="keyword">       </strong>
置換 (Replace): /var/namazu/            http://192.168.1.234/



以上、よろしくお願いいたします。



Namazu-users-ja メーリングリストの案内