namazu-dev(ring)


[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]

Re: integrating NMZ.i and NMZ.w



古川です。

>> On Tue, 31 Aug 1999 21:53:06 +0900, Satoru Takabayashi <satoru-t@xxxxxxxxxxxxxxxxxx> said:
  > なぜ今まで気づかなかったのか不思議ですが、 NMZ.i と NMZ.w と
  > 統合すればインデックスのサイズをさらに節約できることがわかり
  > ました。
  > # その作業の面倒くささから、無意識が抑制していたのかも :-)

私も、(NMZ.w ができた当初から) 同じ情報を重複して持つ気持ち悪さから、
NMZ.w の存在には、ちょっと抵抗を感じていたのですが、


  > となります。この結果を見ると、 NMZ.i の次に NMZ.w のサイズが
  > 大きいことがわかります。実は NMZ.i には NMZ.w の内容がまるご
  > と格納されているので、その分のデータは NMZ.i から削除できま
  > す。

重複データを NMZ.i から削除することは思いつきませんでした。
うん、これはいい。

それと、NMZ.w が必須になるので、逆に、NMZ.w の存在を前堤にした処理が書
けるようになるのもよいです。

>> nmz_files.txt より
  > * NMZ.i
  >   - インデックスファイル (転置ファイル, inverted ファイル)
  >   構造
  >     [単語1\n]
  >     [エントリの総数 * 2][文書ID][スコア][文書ID][スコア]....\n
  >     [単語2\n]
  >     [エントリの総数 * 2][文書ID][スコア][文書ID][スコア]....\n
  >     [単語3\n]
  >     [エントリの総数 * 2][文書ID][スコア][文書ID][スコア]....\n
  >     ...

これは、

     [エントリサイズ][文書ID][スコア][文書IDの差分][スコア]....\n
     [エントリサイズ][文書ID][スコア][文書IDの差分][スコア]....\n
     [エントリサイズ][文書ID][スコア][文書IDの差分][スコア]....\n

という感じになるのでしょうか。最後の "\n" は、残しますか?

-- 

                                        ヤマハ(株)ピアノプレーヤ設計課
                                                              古川 令
                                             furukawa@xxxxxxxxxxxxxxxx
gcnmz は、一から oop っぽく書き直すことにしました
# 「っぽく」ですが