namazu-ml(ring)


[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]

get author - <ADDRESS> ?



たかくまさお@図書館情報大です。

ちょっとしたバグ報告(?)です。

HTMLの<ADDRESS></ADDRESS>の解析で著者名を抽出している部分ですが、

	<ADDRESS>Maintained by webmaster@xxxxxxxxxx</ADDRESS>

上のような行があると、
"Maintainedbywebmaster@xxxxxxxxxx"
が抽出されてしまいます。

一応、ソースを眺めてみたのですが、
html.pl の 47 行めにある、
        $tmp =~ s/\s//g;
が空白を消してしまっているようです。
この行は削除してもらえないでしょうか?

一応修正後は、
"webmaster@xxxxxxxxxx"
が抽出されることを確認してます。
--
高久 雅生  // ULIS : University of Library and Information Science
    図書館情報大学大学院 図書館情報学研究科 修士 1 年次  石塚研究室
    masao@xxxxxxxxxx , http://www.ulis.ac.jp/~masao/