Namazu-users-ja(旧)


[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]

pdfインデックス作成について(RedHat7.3)



はじめまして。
大室と申します。

htmlファイルは問題なく処理できますがpdfファイルのインデックス作成がうまく
いきません。

redhat Linux 7.3 標準インストール時に既にインストール済み
namazu 2.0.10-4
nkf 1.92-6
kakasi 2.3.1-3
xpdf 1.00-3
perl 5.6.1

初期インストールの状態で
$mknmz -a  index とすると pdfファイルに関して
pdftotext version 1.00
Copyright 1996-2002 Derek B. Noonburg
Usage: pdftotext [options] <PDF-file> [<text-file>]
  <中略>
  -?                : print usage information
のようなメッセージが出力されました。

次に /usr/share/namazu/filter/pdf.pl を修正
------------------------------------------------------------------------
###     system("$pdfconvpath -q -eucjp -raw $tmpfile $tmpfile2");
        system("$pdfconvpath -q -enc -EUC-JP -raw $tmpfile $tmpfile2");
-------------------------------------------------------------------------
その後
$ mknmz -a index

結果
Unable to convert pdf file (maybecopying protection) なる
メッセージが出力され変換できません。

単独で pdftotext を実行してみますと

$ pdftotext -q -enc EUC-JP -raw  1.pdf 1.txt
何も出力されず終了します。1.txtファイルも作成されません

因みに
$ pdftotext -q -eucjp  1.pdf 1.txt では
以下のメッセージが出力されました。(mknmz -a index (pdf.pl変更前と同じです))
pdftotext version 1.00
Copyright 1996-2002 Derek B. Noonburg
Usage: pdftotext [options] <PDF-file> [<text-file>]
  <中略>
  -?                : print usage information
--------------------------------------------------

オプション無し
$ pdftotext 1.pdf 1.txt  では
Error: Couldn't find cidToUnicode file for the 'Adobe-Japan1' collection
Error: Unknown character collection 'Adobe-Japan1'
Error: Unknown font tag 'TT2'
Error (1926): No font in show
  <中略>
Error (14013): No font in show
Error: No font in show
1.txtは生成されますが 中身は空です。                         

あと少しの事だと思ったりしています が解決法方が分かりません。
どなたかご指導願います。

設定情報は 以下のとおり
(対応メディアタイプは/etc/namazu/mknmzrcの
$ALLOW_FILE以下のコメントを外しました。)
# mknmz  -C
読み込んだ設定ファイル: /etc/namazu/mknmzrc
システム: linux
Namazu: 2.0.10
Perl: 5.006001
NKF: module_nkf
KAKASI: module_kakasi -ieuc -oeuc -w
茶筌: no
わかち書き: module_kakasi -ieuc -oeuc -w
メッセージの言語: ja_JP.eucJP
言語: ja_JP.eucJP
文字コード: euc
CONFDIR: /etc/namazu
LIBDIR: /usr/share/namazu/pl
FILTERDIR: /usr/share/namazu/filter
TEMPLATEDIR: /usr/share/namazu/template
対応メディアタイプ:
  application/pdf
  application/x-bzip2
  application/x-compress
  application/x-gzip
  application/x-rpm
  message/news
  message/rfc822
  text/hnf
  text/html
  text/html; x-type=mhonarc
  text/plain
  text/plain; x-type=rfc
  text/x-hdml
  text/x-roff
-------------------------
--------------------------------------------------
Ichiro.Ohmuro
    gly46141@xxxxxxxxxxxxxxx