Namazu-users-ja(旧)


[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]

Re: HTML ファイルで分野ごとに複合キーワード検索を行うには



こんにちは、福光です。

Fuminori Muranagaさんは
 Fri, 19 Jul 2002 19:15:31 +0900頃
  AL-Mail32 Version 1.12
   で書きました。
> 本院のイントラネットでは、医薬品添付文書をHTML化し、namazu
>による全文検索を行えるようにしております。
>医薬品添付文書のHTMLファイルは、このメールの最後に示すような
>構造になっております。
>#このようなファイルが約2万件ほど登録されています。
>
>現在は、1つのキーワードで文書全体を検索しており、検索速度は
>充分なのですが、あまりに多くの文書がヒットするため、今ひとつ
>使い勝手がよくありません。
>#もちろん、kakashiの辞書には医学用語を登録しております。
>#多くの文書がヒットするのは、薬品名、相互作用、副作用等
>#が一度に検索対象となるからです。
>
>そこで、「一般名=○○」かつ「禁忌=○○○」のようにカテゴリ毎
>にキーワードを指定して検索できるようにしたいと考えております。
>
>ソフトバンクのnamazuの解説書を読んでみると、namazuは複合インデッ
>クスの検索に対応しており、複合検索を実現するには、文書内のカテゴ
>リ毎に、別々のインデックスを作成したら良いように思えました。
>しかし、現在のmknmzで、1つのHTML内にあるタグを認識して
>別々のインデックスを作成する機能を見つけることが出来ませんでした。
>#現在利用しているバージョンはnamazu-2.0.6です。
>
>カテゴリ毎に付けてある「<a name="k100">」等のタグごとに、別々の
>インデックスを作成することは可能なのでしょうか。教えて下さい。
>それとも、何か良い方法があるのでしょうか。
>
>#各分野ごとに分けて、本文にリンクしているようなHTMLファイルを
>#別途準備したら実現できそうですが、現在でもファイル数が2万件
>#ほどあり、あまりファイルを増やしたくないのと、ユーザの操作も
>#複雑になるようなので、現在はまだ実施していません。

#私もある病院のイントラネットでNamazuを用い
#同じように添付文書を全文検索できるようにしています。

mknmzで--html-splitのオブションを使用し、AのNAME属性単位に
分割処理を行い
http://www.namazu.org/doc/manual.html.ja#mknmz-option

検索時には「商品名 △△顆粒」のように検索すれば
ある程度は要望に沿えるのではないかと思います。

HTMLファイルについては
(略)
><A name="k100">◆◆◆◆◆◆《商品名》◆◆◆◆◆
>○○錠(2mg)
></A>
><A name="k200">◆◆◆◆◆◆《一般名》◆◆◆◆◆
>塩酸○○○○○○,JAN
></A>
(略)

とするよりは

<A name="k100">◆◆◆◆◆◆《商品名》◆◆◆◆◆</A>
○○錠(2mg)
<A name="k200">◆◆◆◆◆◆《一般名》◆◆◆◆◆</A>
塩酸○○○○○○,JAN

の記述にしたほうがHTMLの構造的にもあっていますし
検索結果の表示も分かりやすいのではないかと思います。

*-------------------------------------------*
福光 正人(Masato Fukumitsu)
               fukumitu@xxxxxxxxxxxxxxx
*-------------------------------------------*