[Namazu-devel-ja 1636] mknmz --no-heading-summary オプションの仕様について

Tadamasa Teranishi yw3t-trns @ asahi-net.or.jp
2007年 10月 5日 (金) 23:02:57 JST


寺西です。

namazu-win32-users-ja#1035 で発覚しましたが、stable-2-0, 
development-2-1, (おそらく HEAD) において、-x, --no-heading-summary 
オプションの有無による <Hn> タグの処理が正しくないようです。

stable-2-0 と development-2-1, HEAD とは動作が異なるため、両者にそれ
ぞれ問題があるようです。

stable-2-0 に関しては Namazu 2.0.12 ごろとほとんど変更がないような
ので、ずいぶん昔からこの問題を引きずっているようでした。

=====================================================================

stable-2-0 では -x なしの場合
-- content --
<Hn>〜</Hn>の中身は含まれない
-- headings --
<Hn>〜</Hn>の中身は含まれない

stable-2-0 では -x ありの場合
-- content --
<Hn>〜</Hn>の中身を含む
-- headings --
<Hn>〜</Hn>の中身は含まれない


どちらかというとむしろ逆の動作のようです。

=====================================================================

development-2-1 では -x なしの場合
-- content --
<Hn>〜</Hn>の中身を含む
-- headings --
<Hn>〜</Hn>の中身は含まれない

development-2-1 では -x ありの場合
-- content --
<Hn>〜</Hn>の中身を含む
-- headings --
<Hn>〜</Hn>の中身は含まれない


と、-x オプションの有無で基本的な動作に違いはありませんでした。

=====================================================================

ところで、--no-heading-summary オプションの動作とは、どのようなものを
想定されているのでしょうか?

Usage には、

要約:
  -U, --no-encode-uri      URIのencodeを行わない
  -x, --no-heading-summary HTML のヘディングによる要約作成を行わない

とあり、文面からすると、<Hn>〜</Hn> の中身を要約に含めないという動作
だと推測されます。

しかし、mknmz 要約の処理はかなりいい加減なので、filter/html.pl で
作成した要約が短い場合は、本文を連結して作りますので、
要約に含めないということに厳密に従えば、content にも含めるべきでは
ないということになります。
そうではなくて、headings には含めないが、headings が短い時に content
に含まれるものが要約に現れるのは構わないとするかのどちらかです。

=====================================================================
(前者の場合)

-x なしの場合
-- content --
<Hn>〜</Hn>の中身を含む
-- headings --
<Hn>〜</Hn>の中身を含む

-x ありの場合
-- content --
<Hn>〜</Hn>の中身を含めない
-- headings --
<Hn>〜</Hn>の中身は含めない

 *要約に<Hn>〜</Hn>の中身が現れることはない。
 *同時に<Hn>〜</Hn>の中身を検索することはできない。


(後者の場合)

-x なしの場合
-- content --
<Hn>〜</Hn>の中身を含む
-- headings --
<Hn>〜</Hn>の中身を含む

-x ありの場合
-- content --
<Hn>〜</Hn>の中身を含む
-- headings --
<Hn>〜</Hn>の中身は含まれない

 *要約に<Hn>〜</Hn>の中身が現れることもありえる。
 *<Hn>〜</Hn>の中身を検索することは可能。

=====================================================================

さて、前者が良いでしょうか、あるいは後者が良いでしょうか?
-- 
=====================================================================
寺西 忠勝(TADAMASA TERANISHI)  yw3t-trns @ asahi-net.or.jp
http://www.asahi-net.or.jp/~yw3t-trns/index.htm
Key fingerprint =  474E 4D93 8E97 11F6 662D  8A42 17F5 52F4 10E7 D14E




Namazu-devel-ja メーリングリストの案内