[Namazu-devel-ja 1645] Re: mknmz --no-heading-summary オプションの仕様について
Yukio USUDA
m6694ha392t @ asahi-net.or.jp
2007年 10月 6日 (土) 11:44:05 JST
臼田です
Tadamasa Teranishi さんは書きました:
>> filter/html.pl に関しては正規表現を使用している STABLE とは
>> 抽出の方法や思想が根本的に違うため同じにはなりません。
>
> というより、ここは -x か $INVALID_LENG の処理に問題がありそうだと
> いう話です。
これについては -x オプション、 $INVALID_LENG と関係なく
<h1> タグ内の文書を本文に追加するようにしたかと思います。
>> 互換性の話を問われても対応できない部分があるため
>> これは2.0系にはいれません。
>
> 互換性はとるべきだろうと思います。ここで言う互換性とは、抽出される
> テキスト1文字も違いを許さないということではありません。
> パース処理の都合で異なる部分(stable-2-0 で正しく処理できていない部分
> を合わせろということではありません)
> は仕方ないのですが、
これは本文を前方から順に処理せず、タグ種別単位で処理する手順に
なるため
プレーンテキストとして抽出される結果の順序が2.0系と違う場合
があるというものです。
文書構造をタグで指定している場合は違いは大きくありませんが
文字や単語の色や字形をタグで頻繁に操作するような html の場合
出力順序が違ったものになるはずです。
> HTML::Parser を使うか否かで、振る舞いが違うのは問題だからです。
> これはトラブルの元です。(実際、現状バグなのか、意図して振る舞いが
> 違うのか、何だかよく分かっていない。調査に時間がかかりそうです。)
様々なテスト文書を用意してどう振る舞うべきかを定義していく
のがよいのですが、労力と効果のバランスを考えると実用上どこまで
厳密化するのが適当かという点で妥協しています。
ただ、テストを追加していく中でバグが洗い出されるので必要な
手順ではあるかと思います。
臼田幸生
Namazu-devel-ja メーリングリストの案内