[Namazu-users-ja 1016] Re: PDF検索について

Tadamasa Teranishi yw3t-trns @ asahi-net.or.jp
2007年 12月 5日 (水) 01:29:09 JST


寺西です。

Ikegi Arata wrote:
>  
> 強調文字も当然ありません。先頭数行ではなく、最初にキーワードが
> ある箇所の前後数行という表示にはならないのでしょうか。

現状ではなりませんね。

この要約部分というのは、この文書がどのような内容のものかを示すもの
にすぎず、検索語近辺の文書を表示するものではないためです。

現在のところ PDF に限らず、文書の要約はインデックス作成時に作成し
ます。要約は主に文書の先頭部分から作られ、NMZ.field.summary に1文書
1行単位で保存されます。*1 
文字列の最大長は $MAX_FIELD_LENGTH で指定できますが、デフォルトで 
200文字、最大でも1024文字までとなっています。

つまり、要約部分は表示されている部分のテキストしかインデックスには
保存されておらず、それ以外の領域のテキストはインデックスにはありま
せん。

将来的には、インデックス作成時に抽出したテキスト全てを圧縮して
インデックスに保存することで、この機能を実装するかもしれません。
しかし、インデックスの巨大化は避けられないでしょう。

なお、該当文書を nmzcat でテキストの抽出が可能ですので、これと検索語
から、検索語近辺の文書を抽出する CGI を作成して組み合わせれば、
それらしいものが作れなくもないとは思いますが...。

*1 これは、フィルタや後処理によって、NMZ.field.summary の中身を書き
換えることが可能であるということにもなります。これにyり、静的では
ありますが、要約を好きな文書に書き換えるということもできます。
-- 
=====================================================================
寺西 忠勝(TADAMASA TERANISHI)  yw3t-trns @ asahi-net.or.jp
http://www.asahi-net.or.jp/~yw3t-trns/index.htm
Key fingerprint =  474E 4D93 8E97 11F6 662D  8A42 17F5 52F4 10E7 D14E




Namazu-users-ja メーリングリストの案内