From shotora @ gmail.com Sun Sep 21 22:57:42 2008 From: shotora @ gmail.com (Toru Suzuki) Date: Sun, 21 Sep 2008 22:57:42 +0900 Subject: [sary] =?iso-2022-jp?b?NjRiaXQbJEJIRxsoQnNhcnkbJEIkcjpuJGkbKEI=?= =?iso-2022-jp?b?GyRCJGwkPz9NJCQkXiQ7JHMkKyEpGyhC?= Message-ID: <29fd2a950809210657n7389f861rce6527f0abf28071@mail.gmail.com> はじめまして、鈴木と申します。 バイオインフォマティクスの分野でsaryを使わせていただいております。 saryのFAQには「検索対象、Suffix Array のファイルともに 2GB までしか扱えません。 将来的には 64 bit に拡張するかもしれません。」とありますが、2GB超のファイルを 扱えるように、64bit版に改造された人いませんでしょうか? Assertだけ抑制して、makeしたのですが、入力ファイルを6GBにしてmksaryすると 当然のごとくabortしてしまいました。 $ make 'CFLAGS+="-DG_DISABLE_ASSERT"' $ make install $ mksary -b -t4 T00_read_data.txt index: 100% |ooooooooooooooooooooooooooooooooooooooooo| Time: 00:14:518 GLib-ERROR **: gmem.c:140: failed to allocate 18446744073709519552 bytes aborting... アボートしました --- 鈴木 徹 From knok @ daionet.gr.jp Mon Sep 22 08:00:47 2008 From: knok @ daionet.gr.jp (NOKUBI Takatsugu) Date: Mon, 22 Sep 2008 08:00:47 +0900 Subject: [sary] =?iso-2022-jp?b?NjRiaXQbJEJIRxsoQnNhcnkbJEIkcjpuJGkbKEI=?= =?iso-2022-jp?b?GyRCJGwkPz9NJCQkXiQ7JHMkKyEpGyhC?= In-Reply-To: <29fd2a950809210657n7389f861rce6527f0abf28071@mail.gmail.com> References: <29fd2a950809210657n7389f861rce6527f0abf28071@mail.gmail.com> Message-ID: <874p49ayu8.wl%knok@daionet.gr.jp> At Sun, 21 Sep 2008 22:57:42 +0900, Toru Suzuki wrote: > saryのFAQには「検索対象、Suffix Array のファイルともに 2GB までしか扱えません。 > 将来的には 64 bit に拡張するかもしれません。」とありますが、2GB超のファイルを > 扱えるように、64bit版に改造された人いませんでしょうか? 以前64bit化を考えたことはあるのですが、単純に実装するとインデックス ファイルが実ファイルの8倍に膨れ上がるので、実用的ではないかなあと思っ てその時は結局やりませんでした。 > Assertだけ抑制して、makeしたのですが、入力ファイルを6GBにしてmksaryすると > 当然のごとくabortしてしまいました。 ポインタのサイズが32bitであることを前提にしたコードなので、ソースに 手を入れない限りは正常には動きません。 64bit OS上でならDartsが使えるかもしれません。ソースをざっと見た感じ では、ポインタの長さが可変であることを全邸としたコードのようなので。 http://chasen.org/~taku/software/darts/ 手元に64bit環境がないので、検証はしていません。 -- 野首 貴嗣 E-mail: knok @ daionet.gr.jp knok @ namazu.org / knok @ debian.org From shotora @ gmail.com Mon Sep 22 10:33:27 2008 From: shotora @ gmail.com (Toru Suzuki) Date: Mon, 22 Sep 2008 10:33:27 +0900 Subject: [sary] =?iso-2022-jp?b?NjRiaXQbJEJIRxsoQnNhcnkbJEIkcjpuJGkbKEI=?= =?iso-2022-jp?b?GyRCJGwkPz9NJCQkXiQ7JHMkKyEpGyhC?= In-Reply-To: <874p49ayu8.wl%knok@daionet.gr.jp> References: <29fd2a950809210657n7389f861rce6527f0abf28071@mail.gmail.com> <874p49ayu8.wl%knok@daionet.gr.jp> Message-ID: <29fd2a950809211833t2901af41g7cdb0654156369ff@mail.gmail.com> 野首さん、早速の御回答ありがとうございます。 2008/09/22 8:00 NOKUBI Takatsugu : > 以前64bit化を考えたことはあるのですが、単純に実装するとインデックス > ファイルが実ファイルの8倍に膨れ上がるので、実用的ではないかなあと思っ > てその時は結局やりませんでした。 やはりそうですか。 調べてみると、Suffix Arrayのインデックスを圧縮する方法も考えられているようです。 「圧縮索引とその周辺」 http://hillbig.cocolog-nifty.com/do/files/2005-12-compInd.pdf ここに書かれているCompressed Suffix Arrayをsaryに実装できれば、かなり使えると 思うのですが、まだ理論を解読できてません(^^; > 64bit OS上でならDartsが使えるかもしれません。ソースをざっと見た感じ > では、ポインタの長さが可変であることを全邸としたコードのようなので。 > http://chasen.org/~taku/software/darts/ ありがとうございます。Dartsも試してみます。恥ずかしながらC++ Template Libraryの形式は まだ使ったことがないので、結果がでるのは時間がかかると思います。 --- 鈴木 徹 From knok @ daionet.gr.jp Mon Sep 22 14:56:36 2008 From: knok @ daionet.gr.jp (NOKUBI Takatsugu) Date: Mon, 22 Sep 2008 14:56:36 +0900 Subject: [sary] =?iso-2022-jp?b?NjRiaXQbJEJIRxsoQnNhcnkbJEIkcjpuJGkbKEI=?= =?iso-2022-jp?b?GyRCJGwkPz9NJCQkXiQ7JHMkKyEpGyhC?= In-Reply-To: <29fd2a950809211833t2901af41g7cdb0654156369ff@mail.gmail.com> References: <29fd2a950809210657n7389f861rce6527f0abf28071@mail.gmail.com> <874p49ayu8.wl%knok@daionet.gr.jp> <29fd2a950809211833t2901af41g7cdb0654156369ff@mail.gmail.com> Message-ID: <873ajsbu5n.wl%knok@daionet.gr.jp> At Mon, 22 Sep 2008 10:33:27 +0900, Toru Suzuki wrote: > ありがとうございます。Dartsも試してみます。恥ずかしながらC++ Template Libraryの形式は > まだ使ったことがないので、結果がでるのは時間がかかると思います。 Dartsはソートされたデータを扱うことに特化しているので、よく考えたら Saryの代替になるとは限らないことに気づきました。 Compressed Suffix Arrayは名前だけは聞いたことがありますが、私もその 理屈についてはよく知りません。一度見てみたいと思います。 -- 野首 貴嗣 E-mail: knok @ daionet.gr.jp knok @ namazu.org / knok @ debian.org From shotora @ gmail.com Mon Sep 22 15:53:09 2008 From: shotora @ gmail.com (Toru Suzuki) Date: Mon, 22 Sep 2008 15:53:09 +0900 Subject: [sary] =?iso-2022-jp?b?NjRiaXQbJEJIRxsoQnNhcnkbJEIkcjpuJGkbKEI=?= =?iso-2022-jp?b?GyRCJGwkPz9NJCQkXiQ7JHMkKyEpGyhC?= In-Reply-To: <873ajsbu5n.wl%knok@daionet.gr.jp> References: <29fd2a950809210657n7389f861rce6527f0abf28071@mail.gmail.com> <874p49ayu8.wl%knok@daionet.gr.jp> <29fd2a950809211833t2901af41g7cdb0654156369ff@mail.gmail.com> <873ajsbu5n.wl%knok@daionet.gr.jp> Message-ID: <29fd2a950809212353nee85630s1a600d171095288a@mail.gmail.com> Compressed Suffix Arrayですが、実装例が http://www.dcc.uchile.cl/~gnavarro/software/sada.tar.gz にありました。理論検証用のプログラムなので、洗練されていませんが、 参考にはなるかと思います。ソースを読んでみます。 --- 鈴木 徹