[Namazu-devel-ja 1646] Re: mknmz --no-heading-summary オプションの仕様について

Tadamasa Teranishi yw3t-trns @ asahi-net.or.jp
2007年 10月 9日 (火) 01:55:25 JST


寺西です。

Yukio USUDA wrote:
> 
> > というより、ここは -x か $INVALID_LENG の処理に問題がありそうだと
> > いう話です。
> これについては -x オプション、 $INVALID_LENG と関係なく
> <h1> タグ内の文書を本文に追加するようにしたかと思います。

...いろいろ問題ありそうですね。

> これは本文を前方から順に処理せず、タグ種別単位で処理する手順に
> なるため
> プレーンテキストとして抽出される結果の順序が2.0系と違う場合
> があるというものです。
> 文書構造をタグで指定している場合は違いは大きくありませんが
> 文字や単語の色や字形をタグで頻繁に操作するような html の場合
> 出力順序が違ったものになるはずです。

この部分は要約作成において大きな問題になるかもしれません。
# もっとも現状も決して良いわけではないのですが...。

タグ種別単位で処理しない方法に変えるのが良いでしょう。
(それはできるはずだし。)
 
> 様々なテスト文書を用意してどう振る舞うべきかを定義していく
> のがよいのですが、労力と効果のバランスを考えると実用上どこまで

テストまで手が回らないかもしれませんが、少なくとも定義は必要かも
しれません。

> 厳密化するのが適当かという点で妥協しています。
> ただ、テストを追加していく中でバグが洗い出されるので必要な
> 手順ではあるかと思います。

まぁ、何にしても HTML::Parser を使う html.pl は、置き換えできる
レベルではないですね。
いずれ時間をかけて手を加えましょう。
-- 
=====================================================================
寺西 忠勝(TADAMASA TERANISHI)  yw3t-trns @ asahi-net.or.jp
http://www.asahi-net.or.jp/~yw3t-trns/index.htm
Key fingerprint =  474E 4D93 8E97 11F6 662D  8A42 17F5 52F4 10E7 D14E




Namazu-devel-ja メーリングリストの案内