Namazu-devel-ja(旧)


[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]

--html-split (namazu-bug#10)



Full_Name: Hisashi Hoshino
Version: 2.0.4
OS: Debian GNU/Linux
Submission from: (NULL) (210.249.51.33)


以下のようなHTMLファイルをmknmz --html-splitでインデックスを
作成すると問題が発生するようです。

<A NAME="0">
         ^
上記の部分が数字の0だと問題になるようです。

$ cat dame.html
<HTML>
<HEAD>
<TITLE>html-split test</TITLE>
</HEAD>
<BODY BGCOLOR=#ffffff TEXT=#000000 LINK=#238e23 VLINK=#32cd99 ALINK=#ff0000>
<BLOCKQUOTE>
<CENTER>
--html-split Test
</CENTER>
<A NAME="0">A</A>
<p>
ABCDEFGHIJKLMNOPQRSTUVWXYZ
ABCDEFGHIJKLMNOPQRSTUVWXYZ
ABCDEFGHIJKLMNOPQRSTUVWXYZ
ABCDEFGHIJKLMNOPQRSTUVWXYZ
ABCDEFGHIJKLMNOPQRSTUVWXYZ
</p>
<A NAME="1">B</A>
<p>
ABCDEFGHIJKLMNOPQRSTUVWXYZ
ABCDEFGHIJKLMNOPQRSTUVWXYZ
ABCDEFGHIJKLMNOPQRSTUVWXYZ
ABCDEFGHIJKLMNOPQRSTUVWXYZ
ABCDEFGHIJKLMNOPQRSTUVWXYZ
</p>
<A NAME="2">C</A>
<p>
ABCDEFGHIJKLMNOPQRSTUVWXYZ
ABCDEFGHIJKLMNOPQRSTUVWXYZ
ABCDEFGHIJKLMNOPQRSTUVWXYZ
ABCDEFGHIJKLMNOPQRSTUVWXYZ
ABCDEFGHIJKLMNOPQRSTUVWXYZ
</p>
<A NAME="3">D</A>
<p>
ABCDEFGHIJKLMNOPQRSTUVWXYZ
ABCDEFGHIJKLMNOPQRSTUVWXYZ
ABCDEFGHIJKLMNOPQRSTUVWXYZ
ABCDEFGHIJKLMNOPQRSTUVWXYZ
ABCDEFGHIJKLMNOPQRSTUVWXYZ
</p>
<A NAME="4">E</A>
<p>
ABCDEFGHIJKLMNOPQRSTUVWXYZ
ABCDEFGHIJKLMNOPQRSTUVWXYZ
ABCDEFGHIJKLMNOPQRSTUVWXYZ
ABCDEFGHIJKLMNOPQRSTUVWXYZ
ABCDEFGHIJKLMNOPQRSTUVWXYZ
</p>
<A NAME="5">F</A>
<p>
ABCDEFGHIJKLMNOPQRSTUVWXYZ
ABCDEFGHIJKLMNOPQRSTUVWXYZ
ABCDEFGHIJKLMNOPQRSTUVWXYZ
ABCDEFGHIJKLMNOPQRSTUVWXYZ
ABCDEFGHIJKLMNOPQRSTUVWXYZ
</p>
</BODY>
</HTML>

$ mknmz -k --html-split dame.html
1個のファイルがインデックス作成の対象として見つかりました
1/1 - /home/hoshino/tochi/dame.html [text/html]
    1/6 - /home/hoshino/tochi/dame.html [text/html]
    2/6 - /home/hoshino/tochi/dame.html#1 [text/html]
    3/6 - /home/hoshino/tochi/dame.html#2 [text/html]
    4/6 - /home/hoshino/tochi/dame.html#3 [text/html]
    5/6 - /home/hoshino/tochi/dame.html#4 [text/html]
    6/6 - /home/hoshino/tochi/dame.html#5 [text/html]
インデックスを書き出しています...
[基本]
日付:                Tue Apr 25 10:53:51 2000
追加された文書の数:  7
サイズ (bytes):      1,227
合計の文書数:        7
追加キーワード数:    14
合計キーワード数:    14
わかち書き:          /usr/bin/kakasi -ieuc -oeuc -w
経過時間 (秒):       24
ファイル/秒:         0.29
システム:            linux
Perl:                5.00503
Namazu:              2.0.4

$ sort NMZ.r | uniq -c |sort -nr | head -3
      2 /home/hoshino/tochi/dame.html
      1 /home/hoshino/tochi/dame.html   5
      1 /home/hoshino/tochi/dame.html   4

<A NAME="A">
         ^
上記のように数字以外の文字であれば問題は発生しないようです。

$ mknmz -k --html-split index.html
1個のファイルがインデックス作成の対象として見つかりました
1/1 - /home/hoshino/tochi/index.html [text/html]
    1/6 - /home/hoshino/tochi/index.html#A [text/html]
    2/6 - /home/hoshino/tochi/index.html#B [text/html]
    3/6 - /home/hoshino/tochi/index.html#C [text/html]
    4/6 - /home/hoshino/tochi/index.html#D [text/html]
    5/6 - /home/hoshino/tochi/index.html#E [text/html]
    6/6 - /home/hoshino/tochi/index.html#F [text/html]
インデックスを書き出しています...
[基本]
日付:                Tue Apr 25 10:38:21 2000
追加された文書の数:  7
サイズ (bytes):      1,227
合計の文書数:        7
追加キーワード数:    14
合計キーワード数:    14
わかち書き:          /usr/bin/kakasi -ieuc -oeuc -w
経過時間 (秒):       25
ファイル/秒:         0.28
システム:            linux
Perl:                5.00503
Namazu:              2.0.4

様々なコンテンツをインデックス化している過程でこのようなHTML
ファイルがあるのを発見しましたので報告します。