Namazu-users-ja(旧)


[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]

RE: 使用頻度の高い名詞と動詞を調べたい



芦川と申します。

同様のことをやっています。ただし、名詞、形容詞ですが。
で、NMZ.iの解析には、
http://www.namazu.org/ml/namazu-dev/msg00329.html
が参考になると思います。
ただし、私が解析した限り、NMZ.iは
[エントリサイズ][文書ID][スコア][文書ID][スコア]...
となっている気がしました。
また、動詞をインデックス化するには、
usr/local/share/namazu/pl/wakati.plの56行目あたり、
  $$content .= shift(@tmp) =‾ /(.+ )名詞/ ? $1 : "" while @tmp;
の部分を書き換えることで出来ると思います。
名詞または動詞だと
  $$content .= shift(@tmp) =‾ /(.+ )(名詞|動詞)/ ? $1 : "" while @tmp;
てな、感じでしょうか?これで、
 mknmz -m
で名詞、動詞のみのインデックスが出来ると思います。(確認はしていません。)

--
Hiroshi Ashikawa