[Namazu-users-ja 1054] Re: gcnmz が非常な時間を要するようになった

野宮 賢 / NOMIYA Masaru nomiya @ galaxy.dti.ne.jp
2008年 4月 5日 (土) 14:31:59 JST


野宮です.

In the Message; 

  Subject    : [Namazu-users-ja 1053] Re: gcnmz が非常な時間を要するようになった
  Message-ID : <47F4FB05.A08C83F9 @ asahi-net.or.jp>
  Date & Time: Fri, 04 Apr 2008 00:43:01 +0900

[寺西さん] == Tadamasa Teranishi <yw3t-trns @ asahi-net.or.jp> has written:

寺西さん> 寺西です。

小生>> # mknmz -azEK  update ~/News.nmz ~/var/news
小生>> 
小生>> と,日々走らせています.( ~/var/news 配下には,凡そ 63.5万ファイルが
小生>> あります).

寺西さん> インデックス分けたらどうでしょうか?
寺西さん> 2つに分けると、通常、個々のインデックスの作成時間は1/2以下になります。
寺西さん> gcnmz も同様に個々の処理時間はそれぞれ 1/2 以下になり、トータル時間は
寺西さん> 短縮されます。

確かに,そういう手がありますね.

寺西さん> また、-a を日常的に使うのはどうかと思いますよ。

そうでしたか.m(_ _)m

小生>> この base64 な添付ファイルを含むものが増えた為に時間が掛かるようになった,
小生>> という理解は間違いでしょうか?

寺西さん> あまりにも情報が少ないので何ともいえませんが、その可能性が高い
寺西さん> のではないでしょうか?

寺西さん> たぶん、インデックスのサイズがその前後で随分変わったんではないかと
寺西さん> 思いますよ。
 
どうにも府に落ちません,つまり,mknmz に -K というオプションを付けているの
で base64 なパートは無視される筈では?,と思いましたので,テストをしてみま
した.

件のファイル群は,emacs-w3m の shimbun で取り込んだものでして,ファイルの形
式は,基本的に,

<html>
<head>
[...]
</head>
<body>

 html 形式の本文

</body>
</html>

base64 の添付ファイル

というものです.

ここで,

1. オプション無し,即ち,

  # mknmz -O ~/Test ~/var/foo

  でインデックスを作成

2. オプション有り,即ち,

  # mknmz -zEK ~/Test1 ~/var/foo

  でインデックスを作成,

3. インデックス作成範囲を指定する形式(これは,
   http://www.namazu.org/ml/namazu-users-ja/msg03573.html で廣瀬さんがお示
   しになっている方法に従い,html.pl のパッチを当て,.mknmzrc に

        $SUMMARY_PAT = "<body>(.*?)</body>";

   を加えて,

   # mknmz -O ~/Test2 ~/var/foo

   でインデックスを作成,

4. 3 のオプションを変えて,即ち,

   # mknmz -zEK ~/Test4 ~/var/foo

という四通りでやってみました.その結果,NMZ.i,NMZ.w 等のファイル・サイズは,

1の場合
 
   2272837 2008-04-05 14:05 NMZ.i
   2193676 2008-04-05 14:05 NMZ.ii
  [...]
  20570875 2008-04-05 14:05 NMZ.w
   2193676 2008-04-05 14:05 NMZ.wi

2の場合,

   1764002 2008-04-05 14:06 NMZ.i
   1660960 2008-04-05 14:06 NMZ.ii
  [...]
  10582829 2008-04-05 14:06 NMZ.w
   1660960 2008-04-05 14:06 NMZ.wi

3の場合.

   2272837 2008-04-05 14:09 NMZ.i
   2193676 2008-04-05 14:09 NMZ.ii
  [...]
  20570875 2008-04-05 14:09 NMZ.w
   2193676 2008-04-05 14:09 NMZ.wi

4の場合,

   1764002 2008-04-05 14:10 NMZ.i
   1660960 2008-04-05 14:10 NMZ.ii
  [...]
  10582829 2008-04-05 14:10 NMZ.w
   1660960 2008-04-05 14:10 NMZ.wi
 
となりました.因みに,ファイル数は,509件です.

意外でしたのは,インデックス作成範囲の指定が今や意味が無いという点でした.

ともあれ,これらの結果を観ますと,mknmz の -K オプションは,base64 なパート
をインデックス作成対象外としているように思えるのですが,如何でしょうか?

だとすると,何故 gcnmz でえらく時間が掛かるようになったのか..... (_ _?

---
  野宮  賢             mail-to: nomiya @ galaxy.dti.ne.jp
  
    「私たちが今日直面している化学物質の危険性に関する疑問に対し、通常の
     科学的な正確さをもって答えようとすれば、たぶんさらに数十年を要するで
     あろう。」                                      -- J. V. Rodricks --


Namazu-users-ja メーリングリストの案内