namazu-ml(ring)


[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]

wdnmz v1.0.8 abnormal ends (Re: namazu-1.4.0.0-alpha-6 (Re: namazu-1.4.0.0-alpha-5))



清水@住友林業です。

namazu-1.4.0.0-alpha-6 を OS/2 上で試してみました。

mknmz の対象は例によって、旧 namazu ML の 1〜1075 のメールです。
nkf と Kakasi は perl module を使っています。結果は

  Date: Sat Feb 20 14:38:44 1999
  Added Files: 1,075 files
  Total Files: 1,075 files
  Size: 2,958,288 bytes
  Added Keywords: 13,270 words
  Total Keywords: 13,270 words
  Wakati: module_kakasi -ieuc -oeuc -w
  ARGV: '-ahkuHK' 'h:/document/namazu-ml'
  Perl Version: 5.00553
  Namazu Version: 1.4.0.0-alpha-6
  System: os2
  Time: 294 sec.

こんな具合になります。

で、v1.3.0.1 の mknmz で、Kakasi の辞書は全く同一の状態の結果で
(nkf のみ perl module で Kakasi は外部プログラム)やると

  Date: Sat Feb 20 15:02:21 1999
  Added   Files: 1,075 files
  Deleted Files: 0 files
  Updated Files: 0 files
  Total   Files: 1,075 files
  Size: 2,958,288 bytes
  Keywords: 12,877 words
  Wakati: kakasi -ieuc -oeuc -w
  Perl Version: 5.00553
  Namazu Version: 1.3.0.1
  System: os2
  Time: 1103 sec.

となります。keywords 数が変わってしまったのは、「HTMLのタグを削除する
処理をいじった副作用」だと考えて良いのでしょうか?

ここらへん、Keywords を wdnmz で取り出して diff 取ろうかと思ったの
ですが、今度は wdnmz がお亡くなりになりました。どこかの定数を大きく
すれば直るようなものなのでしょうか? 

 % perl h:/usr/local/namazu/bin/wdnmz ./NMZ.i > 1400.words

 Out of memory during "large" request for 536875008 bytes at 
 h:/usr/local/namazu/bin/wdnmz line 64, <OBJFILE> chunk 1.


一方、引数なしで起動すると、こう出ます(正常ですね)。

 % perl h:/usr/local/namazu/bin/wdnmz

   wdnmz v1.0.8 - program to output list of words from index
   Copyright (C) 1997-1998 Satoru Takabayashi  All rights reserved.

   usage: wdnmz [-iw] NMZ.i
     (default): 'word'  TAB 'count of the word in index'
          -w: output list of words for regex search
          -i: using NMZ.ii to process
   usually use: % wdnmz -w NMZ.i > NMZ.w)


namazu によるキーワードの検索自体は、とりあえず問題なく動いています
し、見たところ v1.3.0.1 とのヒットの違いはなさそうでした。

また、v1.3.0.1 の wdnmz(wdnmz 1.0.6)ではキーワード表示は問題なく
できています(当然、v1.3.0.1 で作った index を対象にしています)。

ちなみに、NMZ.i と NMZ.p のサイズはこうなっています。

 v1.3.0.1
	NMZ.i	1,071,678 Bytes
	NMZ.p	  813,804 Bytes

 v1.4.0.0-alpha-6
	NMZ.i	  458,257 Bytes
	NMZ.p	  348,103 Bytes

インデックスのサイズは半分以下になったので、pack 'w' は効果大、という
ところでしょうか。

... とりあえず wdnmz の問題が気になります。

ではでは。

end
--
  住友林業株式会社  情報システム部   清水 和佳
 
  TEL: +81-3-5322-6672  FAX: +81-3-5322-6658  Niftyserve: XLW01034
  e-mail: <kshimz@xxxxxxxxx>