[Namazu-users-ja 319] Re: [Namazu-devel-ja 404] Excel の INDEX 作成に異常に時間がかかる

Tadamasa Teranishi yw3t-trns @ asahi-net.or.jp
2005年 2月 18日 (金) 15:29:05 JST


寺西です。

# 内容的には namazu-users-ja @ namazu.org 宛のものに思えるので、
# そちらへ。

A N wrote:
> 
> 下記の環境にて、
> OFFICE関連のファイルを検索対象にして
> いるのですが、特定のフォーマットによる
> ExcelファイルでINDEX作成に異常に時間が
> かかる現象が発生しております。

まずは
http://www.namazu.org/pipermail/namazu-devel-ja/2004-November/000353.html
の修正ですかね。
関連する話にも目を通しておいてください。

> Excel:実際のデータ領域は、40C*20R程度ですが、
>    セルの幅が変更されており、Ctrl+Endによる
>    セル位置を確認すると500C*300Rの位置が示され、
>    xlHtmlによる変換で10万以上の空のテーブルが
>    生成される

ここが問題です。非常に長い HTML が出来上がってしまって、パターン
マッチングに時間がかかるのです。
そして、それは O(n) ではないため、データ量に比例するのではなく、
爆発的に時間がかかるということになるのでしょう。

上記の修正で多少マシになるかと思いますが、これでもまだ時間がかかる
かもしれません。

その場合は、いろいろデバッグに協力してください。
これに関連する問題について対処したいとは思っていますが、
十分なテストとデバッグを行う環境が整っておりません。

# 2.0.15 のリリース準備が遅れている原因のひとつです。
-- 
=====================================================================
寺西 忠勝(TADAMASA TERANISHI)  yw3t-trns @ asahi-net.or.jp
http://www.asahi-net.or.jp/~yw3t-trns/index.htm
Key fingerprint =  474E 4D93 8E97 11F6 662D  8A42 17F5 52F4 10E7 D14E




Namazu-users-ja メーリングリストの案内