namazu-ml(avocado)


[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]

定型的なフォーマットのHTMLのインデックス



はたけだ@ウチダと申します。

namazuでこういったことはどうすればできるでしょうか?

現在会社である連絡文書を全文検索するシステムを構築中なのですが...

その文書はHTMLなのですが、一定のフォーマットになっています。現在の問題
はそのフォーマットの文書をそのままインデックス化しても、要約表示で見
た場合、どれも同じように見えてしまってどれが自分の見たい文書かわから
ないということです。

その文書は、<body>以下が、
(データは実際のものとは異なりますが)

</p>
<hr></hr>
<h5>項目A:xxxx年xx月xx日</h5>
<h5>項目B:ほげほげ</h5>
<h5>項目C:ほげほげ</h5>
<h5>項目D:ほげほげ</h5>
<hr></hr>
<h2>1.タイトル</h2>
<p>その文書の内容についてのタイトル</p>
<h2>2.概要</h2>
<p>その文書の概要について</p>
.....(なぜh5で始まるのかは不明です)
のような感じになっています。また<title>は連絡文書の番号が記載されて
いるだけとなっています。

実は要約表示で出したいのは、<h2>1.タイトル</h2>の下の<p>その文書の
内容についてのタイトル</p>の部分なのですが、インデックス作成した場合、
そこまでの部分が長いためうまく出てくれません。
それ以前の部分を切り取ってインデックス作成すればいいとは思うのですが、
文書数が多いため、できれば原文はそのままでインデックス作成したいと思っ
ています。

どのようにすればいいでしょうか?何か良いアイデアがあれば教えてくださ
い(もしかしたら簡単なことなのかも知れないのですが)

以上