[Namazu-users-ja 320] Re: [Namazu-devel-ja 404] Excel の INDEX 作成に異常に時間がかかる

jun-krb jun-krb @ mars.dti.ne.jp
2005年 2月 18日 (金) 21:09:35 JST


Macの件でお世話になりました倉部です。

ExcelでIndex生成に時間がかかるとありますが、Word文書でも同じことが発生し
ますでしょうか?
wvWareでWordからテキストを抜き出したあとの処理にものすごく時間がかかる場
氏があります。

//倉部

Tadamasa Teranishi wrote:
> 寺西です。
> 
> # 内容的には namazu-users-ja @ namazu.org 宛のものに思えるので、
> # そちらへ。
> 
> A N wrote:
> 
>>下記の環境にて、
>>OFFICE関連のファイルを検索対象にして
>>いるのですが、特定のフォーマットによる
>>ExcelファイルでINDEX作成に異常に時間が
>>かかる現象が発生しております。
> 
> 
> まずは
> http://www.namazu.org/pipermail/namazu-devel-ja/2004-November/000353.html
> の修正ですかね。
> 関連する話にも目を通しておいてください。
> 
> 
>>Excel:実際のデータ領域は、40C*20R程度ですが、
>>   セルの幅が変更されており、Ctrl+Endによる
>>   セル位置を確認すると500C*300Rの位置が示され、
>>   xlHtmlによる変換で10万以上の空のテーブルが
>>   生成される
> 
> 
> ここが問題です。非常に長い HTML が出来上がってしまって、パターン
> マッチングに時間がかかるのです。
> そして、それは O(n) ではないため、データ量に比例するのではなく、
> 爆発的に時間がかかるということになるのでしょう。
> 
> 上記の修正で多少マシになるかと思いますが、これでもまだ時間がかかる
> かもしれません。
> 
> その場合は、いろいろデバッグに協力してください。
> これに関連する問題について対処したいとは思っていますが、
> 十分なテストとデバッグを行う環境が整っておりません。
> 
> # 2.0.15 のリリース準備が遅れている原因のひとつです。





Namazu-users-ja メーリングリストの案内