Namazu-win32-users-ja(旧)


[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]

mknmz で HTML タグを拾ってしまう場合があるようです



HTMLドキュメントのインデックス作成を試みているのですが、
なぜか<BODY>タグがフィルタで除去されずに、そのままNMZ.wに登録されて
しまいます。もしかすると、該当HTMLドキュメントの文法がおかしいのかも
しれませんが、文書フィルタに修正を加えるとすれば、どのような考え方に
基づけばよろしいでしょうか。ヒントだけでも結構ですので、どなたか
ご教授いただければ幸いです。

OS:Windows 98
Namazu:2.0.4
kakasi:2.3.2
NKF32:1.7

NMZ.w の内容
-------------ここから-----------
0000ff
<body
alink
alink="#ff0000
alink="#ff0000"
bgcolor
bgcolor="#ffffff
bgcolor="#ffffff"
body
ff0000
ff00ff
ffffff
link
link="#0000ff
link="#0000ff"
pc
vlink
vlink="#ff00ff
vlink="#ff00ff"
全般
-------------ここまで-----------

インデックス作成対象としたHTMLドキュメント:添付ファイルのとおり

以上

***********************
西原 良昭
nisihara@xxxxxxxxxxxxx
***********************
Title: PCS

PCS

: tH[VXgB


2000/06/14 01:24 [7169-0000] J[y[Wv^[H From: CNWFbg
[J[@H
B


2000/06/14 01:48 [7169-0001] ALmgpB From: cozyhouse
CANONgpBij


2000/06/14 22:04 [7169-0002] From: eNg
Phaser740B



2000/06/14 23:23 [7169-0003] From: EPSONLBP-2160
PAXl
AQ
gmN[U[g


bQ

Subject:
From:
Message: