Namazu-users-ja(旧)


[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]

RE: PDF ファイルのインデクス作成について



山村さん

度々ありがとうございます。平野@teraです。
山村さんにご教授頂いた方法により
PDFファイルのインデクスを作成することができました。
ありがとうございました。

以下、実際に行った方法です。

1、以前の状態へ戻すために以下のことを行いました。
pdftotext.cc を修正する前の状態へ戻しました。(前回に修正し、コンパイルを行った為)
■/usr/local/src/xpdf-1.01/xpdf/pdftotext.cc の151−154行目をコメントアウトしたものを
元の状態に戻しました。(以前のコピーフラグをチェックする状態へ戻しました。)
**********************************************************************
  // check for copy permission
  if (!doc->okToCopy()) {
    error(-1, "Copying of text from this document is not allowed.");
    goto err2;
  }
**********************************************************************
その後、
make clean
make
make install
を行い、元の状態へ戻しました。
この状態では以前と同様にmknmz コマンド実行時に以下のエラーが出ます。
────────────────────────────
Unable to convert pdf file (maybe copying protection)
────────────────────────────

2、ご教授頂いた方法を試してみました。
/usr/local/etc/xpdfrc に /usr/local/share/xpdf/japanese/add-to-xpdfrc の内容を付け加えました。
*******************************************************************************************************
#----- begin Japanese support package (2002-apr-01)
cidToUnicode    Adobe-Japan1    /usr/local/share/xpdf/japanese/Adobe-Japan1.cidToUnicode
unicodeMap      ISO-2022-JP     /usr/local/share/xpdf/japanese/ISO-2022-JP.unicodeMap
unicodeMap      EUC-JP          /usr/local/share/xpdf/japanese/EUC-JP.unicodeMap
unicodeMap      Shift-JIS       /usr/local/share/xpdf/japanese/Shift-JIS.unicodeMap
cMapDir         Adobe-Japan1    /usr/local/share/xpdf/japanese/CMap
toUnicodeDir                    /usr/local/share/xpdf/japanese/CMap
displayCIDFontX Adobe-Japan1    "-*-fixed-medium-r-normal-*-%s-*-*-*-*-*-jisx0208.1983-0" ISO-2022-JP
#----- end Japanese support package
*******************************************************************************************************
add-to-xpdfrc の内容については特に修正しませんでした。
(なお、xpdf-japanese.tar.gz は /usr/local/src で展開しました。)

3、動作確認を行いました。
以下、mknmz コマンドにより動作確認を行った結果です。
─────────────────────────────
# mknmz -O /tmp/pdftotext /tmp/pdftotext
検索対象のファイルを調べています...
2個のファイルがインデックス作成の対象として見つかりました
1/2 - /tmp/pdftotext/know_hwm%5B1%5D.pdf [application/pdf]
2/2 - /tmp/pdftotext/pdftotext.txt [text/html]
インデックスを書き出しています...
[基本]
日付:                Wed Jul 31 16:51:07 2002
追加された文書の数:  2
サイズ (bytes):      164,758
合計の文書数:        2
追加キーワード数:    1,623
合計キーワード数:    1,623
わかち書き:          module_kakasi -ieuc -oeuc -w
経過時間 (秒):       19
ファイル/秒:         0.11
システム:            linux
Perl:                5.006
Namazu:              2.0.10
─────────────────────────────

-以上です-

山村 光弘 さんは書きました:
> 山村です。
>
> そのPDFは日本語のファイルではないでしょうか。
> xpdfrcは書き換えましたか?
>
>http://www.foolabs.com/xpdf/download.html
>
> ここから、「Language Support Package」を入手して、
>付属のドキュメント通り、pdftotxtと同じ階層にxpdfrc
>というファイルを置いて、そこに追記する必要があり
>ます。こんな感じです。
>
> パスはLanguage Packを展開したディレクトリに置き
>換えてください。
> わたしの環境はWindowsなもので。
>
>#----- begin Japanese support package (2002-apr-01)
>cidToUnicode	Adobe-Japan1	c:\namazu\bin\japanese\Adobe-Japan1.cidToUnicode
>unicodeMap	ISO-2022-JP	c:\namazu\bin\japanese\ISO-2022-JP.unicodeMap
>unicodeMap	EUC-JP		c:\namazu\bin\japanese\EUC-JP.unicodeMap
>unicodeMap	Shift-JIS	c:\namazu\bin\japanese\Shift-JIS.unicodeMap
>cMapDir		Adobe-Japan1	c:\namazu\bin\japanese\CMap
>toUnicodeDir			c:\namazu\bin\japanese\CMap
>displayCIDFontX	Adobe-Japan1	"-*-fixed-medium-r-normal-*-%s-*-*-*-*-*-jisx0208.1983-0" ISO-2022-JP
>#----- end Japanese support packag
>
> どうでしょう。
>

====== mailto: hirano@xxxxxxxxxxxxxx ========
   テラインターナショナル株式会社
    システム開発部 平野 雄一
   Tel 03-5979-7173 Fax 03-5979-7175
====== URL: http://www.teraintl.co.jp =======