[Namazu-devel-ja 1646] Re: mknmz --no-heading-summary オプションの仕様について
Tadamasa Teranishi
yw3t-trns @ asahi-net.or.jp
2007年 10月 9日 (火) 01:55:25 JST
寺西です。
Yukio USUDA wrote:
>
> > というより、ここは -x か $INVALID_LENG の処理に問題がありそうだと
> > いう話です。
> これについては -x オプション、 $INVALID_LENG と関係なく
> <h1> タグ内の文書を本文に追加するようにしたかと思います。
...いろいろ問題ありそうですね。
> これは本文を前方から順に処理せず、タグ種別単位で処理する手順に
> なるため
> プレーンテキストとして抽出される結果の順序が2.0系と違う場合
> があるというものです。
> 文書構造をタグで指定している場合は違いは大きくありませんが
> 文字や単語の色や字形をタグで頻繁に操作するような html の場合
> 出力順序が違ったものになるはずです。
この部分は要約作成において大きな問題になるかもしれません。
# もっとも現状も決して良いわけではないのですが...。
タグ種別単位で処理しない方法に変えるのが良いでしょう。
(それはできるはずだし。)
> 様々なテスト文書を用意してどう振る舞うべきかを定義していく
> のがよいのですが、労力と効果のバランスを考えると実用上どこまで
テストまで手が回らないかもしれませんが、少なくとも定義は必要かも
しれません。
> 厳密化するのが適当かという点で妥協しています。
> ただ、テストを追加していく中でバグが洗い出されるので必要な
> 手順ではあるかと思います。
まぁ、何にしても HTML::Parser を使う html.pl は、置き換えできる
レベルではないですね。
いずれ時間をかけて手を加えましょう。
--
=====================================================================
寺西 忠勝(TADAMASA TERANISHI) yw3t-trns @ asahi-net.or.jp
http://www.asahi-net.or.jp/~yw3t-trns/index.htm
Key fingerprint = 474E 4D93 8E97 11F6 662D 8A42 17F5 52F4 10E7 D14E
Namazu-devel-ja メーリングリストの案内