[Namazu-users-ja 1167] PDFのプロパティで文書名があっても本文自体に検索対象語が一語もない場合検索できない

森田 光貴 mitsutaka-q @ umin.net
2009年 8月 29日 (土) 01:16:28 JST


先日から質問させていただいていた森田です。
ようやく日本語PDFもindex化できたかと思ったら
またエラーがでてしまい、お力を貸していただければと思います。

紙媒体をスキャンした際にはファイル名としては適当なものをつけ、
Adobe acrobatなどをインストールした際に書き込みが可能となる
PDFのプロパティでの文書名(namazuでPDFを検索されるときに表示されるタイトル部分)
を編集していました。

それで従来の職場の環境では
本文自体には検索対象語が一語もない場合でもPDFのプロパティでの文書名が登録されていれば
それを元に+title:hogehogeとすれば検索できていました。
しかし現在の環境ではPDFのプロパティでの文書名があっても本文自体に検索対象語が一語もない場合
検索できませんでした。

具体例をあげると
opi.pdf        本文:null     PDF文書名 オピオイド
fenta.pdf      本文:フェンタニル PDF文書名 フェンタニル(本文はテキストボックスツールで作成)
のファイルがある場合

namazu オピオイド
検索結果
参考ヒット数:  [ オピオイド: 0 ]
検索式にマッチする文書はありませんでした。

namazu +title:オピオイド
検索結果
参考ヒット数:  [ +title:オピオイド: 1 ]
検索式にマッチする 1 個の文書が見つかりました。
セグメンテーション違反です

namazu フェンタニル
検索結果
参考ヒット数:  [ フェンタニル: 1 ]
検索式にマッチする 1 個の文書が見つかりました。
1. フェンタニル (スコア: 2)
著者: 不明
日付: Sat, 29 Aug 2009 00:03:02 +0900
フェンタニル
/mnt/share/test/fenta.pdf (83,435 bytes)

namazu +title:フェンタニル
検索結果
参考ヒット数:  [ +title:フェンタニル: 1 ]
検索式にマッチする 1 個の文書が見つかりました。
1. フェンタニル (スコア: 1)
著者: 不明
日付: Sat, 29 Aug 2009 00:03:02 +0900
フェンタニル
/mnt/share/test/fenta.pdf (83,435 bytes)

とセグメンテーション違反ですとの表示がでました。
ファイル自体はちゃんと1つヒットしているようなのですが
なにか回避方法はあるのでしょうか。
よろしくお願いいたします。

念のため、環境を再度記載いたします。

$ cat /etc/debian_version
4.0

$ pdfinfo -v
pdfinfo version 3.01
Copyright 1996-2005 Glyph & Cog, LLC

$ xpdf -v
xpdf version 3.01
Copyright 1996-2005 Glyph & Cog, LLC

$ mknmz -C
システム: linux
Namazu: 2.0.19
Perl: 5.008008
File-MMagic: 1.27
NKF: /usr/bin/nkf
KAKASI: module_kakasi -ieuc -oeuc -w
茶筌: no
和布蕪: no
わかち書き: module_kakasi -ieuc -oeuc -w
メッセージの言語: ja_JP.eucjp
言語: ja_JP.eucjp
文字コード: euc
CONFDIR: /usr/local/etc/namazu
LIBDIR: /usr/local/share/namazu/pl
FILTERDIR: /usr/local/share/namazu/filter
TEMPLATEDIR: /usr/local/share/namazu/template
対応メディアタイプ:   (23)
未対応メディアタイプ: (25) 必要ツールが $path にないものには (-) を表示
 application/excel: excel.pl
 application/gnumeric: gnumeric.pl
 application/ichitaro5: taro56.pl
 application/ichitaro6: taro56.pl
- application/ichitaro7: taro7_10.pl
 application/macbinary: macbinary.pl
 application/msword: msword.pl
 application/pdf: pdf.pl
- application/postscript: postscript.pl
 application/powerpoint: powerpoint.pl
- application/rtf: rtf.pl
- application/vnd.kde.kivio: koffice.pl
- application/vnd.kde.kpresenter: koffice.pl
- application/vnd.kde.kspread: koffice.pl
- application/vnd.kde.kword: koffice.pl
- application/vnd.oasis.opendocument.graphics: ooo.pl
- application/vnd.oasis.opendocument.presentation: ooo.pl
- application/vnd.oasis.opendocument.spreadsheet: ooo.pl
- application/vnd.oasis.opendocument.text: ooo.pl
- application/vnd.openxmlformats-officedocument.presentationml: msofficexml.pl
- application/vnd.openxmlformats-officedocument.spreadsheetml: msofficexml.pl
- application/vnd.openxmlformats-officedocument.wordprocessingml: msofficexml.pl
- application/vnd.sun.xml.calc: ooo.pl
- application/vnd.sun.xml.draw: ooo.pl
- application/vnd.sun.xml.impress: ooo.pl
- application/vnd.sun.xml.writer: ooo.pl
 application/vnd.visio: visio.pl
 application/x-apache-cache: apachecache.pl
- application/x-bzip2: bzip2.pl
 application/x-compress: compress.pl
 application/x-deb: deb.pl
- application/x-dvi: dvi.pl
 application/x-gzip: gzip.pl
- application/x-js-taro: taro7_10.pl
- application/x-rpm: rpm.pl
- application/x-tex: tex.pl
- application/x-zip: zip.pl
- audio/mpeg: mp3.pl
 message/news: mailnews.pl
 message/rfc822: mailnews.pl
 text/hnf: hnf.pl
 text/html: html.pl
 text/html; x-type=mhonarc: mhonarc.pl
 text/html; x-type=pipermail: pipermail.pl
 text/plain
 text/plain; x-type=rfc: rfc.pl
 text/x-hdml: hdml.pl
 text/x-roff: man.pl

$ locale -a
C
POSIX
ja_JP.eucjp
ja_JP.sjis



Namazu-users-ja メーリングリストの案内