namazu-dev(ring)


[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]

Re: Recognize RFC document



<199906162346.IAA13647@xxxxxxxxxxxxxx>の記事において
satoru-t@xxxxxxxxxxxxxxxxxxさんは書きました。

>> のようにすればよいですよね。使えないなら対応した方がよいので
>> はないかと。:)

  そのように改造してみました。ついでに%SPECIAL評価方法もちょっと変更し
てます。今までは最初にpattern matchするとそこで即評価を打ち切っていた
のを、先頭から最も近い位置でmatchしたものをもって判別するようにしたの
で、誤認する率が下がりました。そのかわり、全ての%SPECIALを評価するので
速度が低下しているはずです。

  先頭から一定バイト数のみを評価するようにしたほうがよいのかもしれませ
ん。問題は、その閾値をどれくらいにするべきかですが... これはもう実験的
に確かめるしかなさそうです。せいぜい数KB程度でいいと思うんですけどね。

  ところで、RFCの中には先のように/^Request for Comments:/等の書式にし
たがっていないものが一部あるようです(rfc822とか)。この辺りはどうしましょ
う? まあ、書式がことなるので他のRFCと同じように処理できないかもしれな
いので、判別できないままの方がいいのかもしれませんけど...

>> それから、FYIや internet-draft などは RFC と同じ形式なのでこ
>> れらも対応した方がよいでしょうね。

  了解です。その辺りはあまり手元にサンプルがないので、適当に取って来て
調べてみます。

>> ># ファイル名による判別も合わせて行ったほうが良いのかもしれません...
>> 
>> RFCなんかは特にそうですね。お願いします。

  checktype_byfilenameを作ればいいかな。filter.plを参考にして実装して
みます。
-- 
野首 貴嗣
E-mail: knok@xxxxxxxxxxxxx (private)
        nokubi@xxxxxxxxx (official)