namazu-dev(ring)


[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]

kwnmz.pl



あまりその存在は知られていないようですが、 pnamazu には 
kwnmz.pl という面白いツールが付属しています。これは

[namazu:01642] (古い方のメイリングリスト) より
| これは、単語のヒット数、およびスコアをもとに、関連文書を引き出すのに役
| 立ちそうなキーワードを、要約に付加するものです。
| 
| 私の身近な文書で、それらしい結果がでるように調整しているので、他の文書
| で効果があるかどうかは不明です。
| 
| 例えば、
| 
|   > % namazu.pl pnamazu .
|   > 検索結果:
|   > 
|   > 参考ヒット数:
|   > 
|   >  [ pnamazu: 87 ] 
|   > 
|   > 
|   > 検索式にマッチする 87 個の項目が見つかりました。
|   > 
|   > 1. [namazu:00617] Re: pnamazu-98.05.14 (score: 22)
|   > From: Satoru Takabayashi <ccsatoru@xxxxxxxxxxxxxxxxxx>
|   > Date: Fri, 15 May 1998 02:32:35 +0900
|   > 受け取りました。 <URL:http://saturn.aichi-u.ac.jp/%7Eccsatoru/Namazu/> 
|   > にアナウンスしておきました。 面白いですね。さっそく試してみました。 こ
|   > れは予想以上に時間がかかりました。 なぜかこの方法は で動きませんでした
|   > が、 こちらはうまくいきました。 kakasi -w と比べると % time kakasi -w <
|   >  ../doc/pnamazu.ht
|   > Keywords: ダウンロード 集計 仕様上 予想以上 アナウンス アクセス 本体 ス
|   > クリプト 別便 今回

というものです。たいへん面白いアイディアなので、 v2.0 ではこ
れに似た機能を実装したいと考えています。ファイルとしては 
NMZ.field.keywords を作ればよいだけですね。具体的な実装方法
はおいおい考えていきます。

# 付加するキーワードは tf idf法を用いて選出したい (meta
# name="keywords" ...> があればそれを使った方がよい) ところ
# ですが、 idf はインデックス作成が終わってからでないと、計
# 算できないのですよね。ちと面倒。

-- Satoru Takabayashi