Namazu-users-ja(旧)


[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]

Re: pdfファイルの検索について



寺西です。

平屋 宏記 wrote:
> 
> > > // -- content --
> > > // TEL
> > > // TEL
> > > // TEL
> > > の後にpdftotextの結果が出力されておりました。
> >
> > むむ。TEL が 3回とはいえ、出力されているのですね。
> 3回でなく大量に出ておりましたので、省略してしまいました。

そうでしたか。どれくらいの数でしょう。

> pdftotextの結果の中にもTELが2回づつ出力されておりました。

まってください。TEL が 2回づつというのはどういう感じで出ている
のですか? 合計何個?
pdftotext では TEL は大量には出ていないのですよね?

-- content -- 以下の出力とは、pdftotext の出力結果を多少加工した
ものです。ここで TEL が大量に入っているということは pdftotext の
結果に TEL が大量に入っていると考えるのが、ごく自然です。

mknmz から実行している pdftotext とシェルから実行している pdftotext
が別物という可能性はありませんか?

> > // -- weighted_str: -- と
> > // -- headings -- の後はどうなっているでしょうか?
> 
> // -- weighted_str: --
> // 165-7.pdf/16
> // -- headings --
> // tmpnam: /export/home/src/namazu/NMZ.pdf3.tmp

なるほど headings は空ですね。pdf.pl では headings は触っていないので
これが空じゃないと、どこか別のところに原因があるのかと思いましたが、
そうではなく pdftotext の問題ぽいですね。
-- 
=====================================================================
寺西 忠勝(TADAMASA TERANISHI)  yw3t-trns@xxxxxxxxxxxxxxx
http://www.asahi-net.or.jp/~yw3t-trns/index.htm
Key fingerprint =  474E 4D93 8E97 11F6 662D  8A42 17F5 52F4 10E7 D14E