Namazu-win32-users-ja(旧)


[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]

PDFファイルのインデックス化に関して



はじめまして。
佐野と申します。
mknmz でのインデックス化にPDF文章も追加しようとして以下のように実行
したのですが、エラーで対応できません。
対処方法をご教授ください。
なお、過去の履歴(2002/JUL/30 PDFファイルのインデックス作成)を参考
にしましたがうまくいきませんでした。
どこが良くないのでしょうか?

●ハード構成
 Windows 98SE

●実行結果(バッチファイルにて実行)
 mknmz      -O e:\なまず\index  c:\52.pdf
  コマンドまたはファイル名が違います.
  検索対象のファイルを調べています...
 1個のファイルがインデックス作成の対象として見つかりました
  pdftotext version 2.03
  Copyright 1996-2003 Glyph & Cog, LLC
  Usage: pdftotext [option] <PDF-file> [<test-file>]
    -f <int>          :first page to convert
                 ・
                 ・
                 ・
                 ・
                 ・
  --help            : print usage information
  -?                : print usage information
 1/1 - /c|/52.pdf Unable to convert pdf file (maybe copying protection)
 [基本]
 日付:                Sun Nov  9 16:22:35 2003
 わかち書き:          module_kakasi -ieuc -oeuc -w
 経過時間 (秒):       88
 ファイル/秒:         0.00
 システム:            MSWin32
 Perl:                5.006001
 Namazu:              2.0.12
 C:\WINDOWS\SYSTEM>exit

●mknmz環境の確認
  文字コード: sjis
  CONFDIR: C:/namazu/etc/namazu
  LIBDIR: C:/namazu/share/namazu/pl
  FILTERDIR: C:/namazu/share/namazu/filter
  TEMPLATEDIR: C:/namazu/share/namazu/template
  対応メディアタイプ:
    application/excel
    application/ichitaro4
    application/ichitaro5
    application/ichitaro6
    application/ichitaro7
    application/msword
    application/pdf
    application/rtf
    application/x-gzip
    application/x-js-taro
    message/news
    message/rfc822
    text/hnf
    text/html
    text/html; x-type=mhonarc
    text/plain
    text/plain; x-type=rfc
    text/x-hdml

●MS-DOS の環境
  PROMPT=$p$g
  winbootdir=C:\WINDOWS
  COMSPEC=C:\COMMAND.COM
  LOG=NUL
  DSHD=C:
  QRCD=N:
  JP=JP
  BOTD=C:
  MFG=YES
  ZIPD=D:
  CPQD=N:
  CLASSPATH=C:\PROGRA~1\PHOTOD~1.1\ADOBEC~1
  KANWADICTPATH=c:\kakasi\share\kakasi\kanwadict
  ITAIJIDICTPATH=c:\kakasi\share\kakasi\itaijidict

PATH=C:\NAMAZU\BIN;C:\XPDF\;C:\XPDF\JAPANESE\;C:\KAKASI\BIN;C:\PERL\BIN\;C:\
WIND

OWS;C:\WINDOWS;C:\WINDOWS\COMMAND;C:\CPQS\SAVEREST;C:\CPQS\TOOLS;C:\WINDOWS\
COMM
  AND;C:\WINDOWS
  NAMAZURC=C:\namazu\etc\namazu\namazurc
  NAMAZULOCALEDIR=C:\namazu\share\locale
  MKNMZRC=C:\namazu\etc\namazu\mknmzrc
  LANG=ja_JP.SJIS
  windir=C:\WINDOWS
  BLASTER=A220 I10 D1
  C:\WINDOWS>
●pdftotext 単独実行(変換できました)
 C:\WINDOWS>pdftotext c:\52.pdf

 C:\WINDOWS>dir c:\52.*

 ドライブ C: のボリュームラベルはありません.
 ボリュームシリアル番号は 4E55-14A1
 ディレクトリは C:\

 52       TXT         8,216  03-11-14   5:56 52.txt
 52       PDF       328,512  02-12-03  22:36 52.pdf
         2 個            336,728 バイトのファイルがあります.
         0 ディレクトリ      2,521.93 メガバイトの空きがあります.

 C:\WINDOWS>
 但し、変換できたファイルメモ帳で開くと、文字が化けています。
 しかし、フリーソフト「サクラエディタ」でEUCコードで開くと正しく読めま
す。
  (SJISで出来上がっているようです。)
●namazu , xpdf の保存場所及びバージョン
 c:\namazu  <== 保存場所(ドライブc:の直下のあります)
     C:\>namazu -v
         namazu of Namazu 2.0.12
  c:\xpdf   <== 保存場所(ドライブc:の直下のあります)
    C:\>pdftotext
    pdftotext version 2.03
●xpdfrcの内容
  #textEncoding  UTF-8
  # 変更 2003/11/02      ↓↓↓
  textEncoding  EUC-JP
  # 変更 2003/11/02      ↑↑↓↑

  # ここから下は /japanese/add-to-xpdfrc のファイルを全部追加 2003/11/02
↓↓↓
  #----- begin Japanese support package (2002-apr-01)
cidToUnicode Adobe-Japan1 c:\xpdf\japanese\Adobe-Japan1.cidToUnicode

unicodeMap ISO-2022-JP c:\xpdf\japanese\ISO-2022-JP.unicodeMap

unicodeMap EUC-JP  c:\xpdf\japanese\EUC-JP.unicodeMap

unicodeMap Shift-JIS c:\xpdf\japanes\Shift-JIS.unicodeMap

cMapDir  Adobe-Japan1 c:\xpdf\japanese\CMap

toUnicodeDir   c:\xpdf\japanese\CMap

displayCIDFontX Adobe-Japan1
"-*-fixed-medium-r-normal-*-%s-*-*-*-*-*-jisx0208.1983-0" ISO-2022-JP

#----- end Japanese support package


  以上