namazu-ml(avocado)


[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]

Re: tfidf (Re: current problems of Namazu)



高林です

Hajime BABA <baba@xxxxxxxxxxxxxxxxxxxxxx> wrote:

>>>・スコアリングを tf・idf 値にできないか?
>>うーん、私自身が正しく tf・idf 法を理解しているかアヤシイので誤解
>>しているかもしれませんが、 
>
>>tf は単語の出現回数をそのまま使えばいいんですよね。
>
>そうです。
># tf は Term Frequency の略です。
>
>>で、idf を求めるにはそのキーワードを含むファイルの数を
>>全文書数で割ってそれの対数をとると。
>
>逆です。idf = log(N/n) で、N は全文書数、n がそのキーワードを含む
>ファイル数です。そうすると idf >= 0 になります。
># idf は Inverse Document Frequency の略です。
(snip)

ごめんなさい、逆でしたね。
詳しい解説ありがとうございます。


>N と tf はすぐわかるのですが、n がコストをかけずにすぐにわかるのか
>な?とおもったのです。ちょろっと見ただけではアレだったのですが、わ
>かるのなら導入しても良いかとおもいます。

n はすぐに求まります (malloc する時に必要だし) ので、 idf を一度求
めて、あとは tf とかけ算していくだけでなら、そんなに計算量としても
コストはかからないように思われます。あとで実装してみます。

「スコアは tf・idf 法で計算されます」なんてことを書いておくと本格
的な感じで格好良いですね:-)。


P.S.

過去のメールは namazu-ctl@xxxxxxxxxxxxxxxxxxxxx へ本文に

# mget 1-last

と書いたメールを送ると折り返し tar + gz のファイルが uuencode され
て送られてきます。

--
高林 哲 Satoru Takabayashi