Namazu-users-ja(旧)


[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]

Re: 使用頻度の高い名詞と動詞を調べたい



<3a359e87.392%jota@xxxxxxxxxxxxxxxx>の記事において
jota@xxxxxxxxxxxxxxxxさんは書きました。

>> http://www.namazu.org/doc/nmz.html.ja#i によると NMZ.i は
>> [単語1を含む文書の総数 * 2][文書ID][スコア][文書ID][スコア]...
>> という順序で数字が並んでいるはずなのですが… pack されたデータを 
>> unpack するには、どのようにすればよいのでしょうか?

  Namazu 2.0.x のインデックスの形式は実はこれとちょっと変わっていて、
単語ごとに

           |--------- この領域が N bytes --------|
[byte 数 N][文書ID(差分)][score][文書ID(差分)]....

  という感じになっています。個々の値は BER encoding されているので、
unpack('w', $data) という感じで decode する必要があります。

  実際に読み出す code を示すのはちょっと大変なので、mknmz の
write_index_sub() あたりを参考にしてみて下さい。

>> また茶筅を用いて分かち書きを行っていますが、動詞、名詞のみをイン
>> デックスすることは可能でしょうか? 名詞だけなら茶筅のオプションを使え
>> ば可能そうなのですが…

  pl/wakati.pl を改造すればできそうですね。

# ... と、ここまで書いたところで 01315 が届いたことに気付きました...
# せっかく書いたものを捨てるのももったいないので出しちゃいます ^^;
-- 
野首 貴嗣
E-mail: knok@xxxxxxxxxxxxx