Namazu-users-ja(旧)


[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]

Re: mknmz-squid 実行時にメディアタイプの取得に失敗し停止



<20010208235016.D9FDE38802@xxxxxxxxxxxxxxxx>の記事において
kai13@xxxxxxxxxxxxxxxxxxxxさんは書きました。

>> とりこぼしの件はSquidCache内のHTTPヘッダを元にadd_magicを書いていることに起因します。前回のメールで書いたのですが、例えば、対象のファイルが 8777 個に対して、
>> 「Server:」ヘッダを含むSquidCacheが 8559、 「Content-Type:」ヘッダを含む文書が、
>> 7835。add_magicを詳しく書けば書くほどとりこぼしが多くなります。

  うーん、そんなことはないはずなんですが... と思って調べたところ、
File::MMagic 側の問題でした。
  SPECIALS による判定をする前に、binary かどうかのチェックが入っている
ので、この時点で binary と判定されると SPECIALS の判定をしないで
binary とみなしてしまうようになっていました。

  この問題を修正してテストしてみところ、誤認識は起きていなさそうです。

  その File::MMagic を
<http://www.namazu.org/~knok/File-MMagic-1.11bis.tar.gz> に置いてみた
ので、これで試していただけませんでしょうか。

>> パッチを当ててから正規表現の関係でうまく動かなくなったのであくまで推測ですが、
>> 以前失敗の元になったキャッシュ:http://tat6.ice.ous.ac.jp/akita/filez/0000123A
>> からヘッダ部分を取り除いたデータ部分を再びMMagicが読み間違える気がします。

  先の新しい File::MMagic にて、単体でテストした限りは問題ないようです。

>> 認識に失敗したSquidCache : http://tat6.ice.ous.ac.jp/akita/filez/000000A7

  こちらも同様に問題ありませんでした。

>>   #$$contref =~ s/^([^\r\n]+\r\n)+\r\n//s;

  とりあえずこの式で、http://tat6.ice.ous.ac.jp/akita/filez/000000A7 
から squid cache header の除去に成功しているようなんですが... 問題あり
ますか?
-- 
野首 貴嗣
E-mail: knok@xxxxxxxxxxxxx