Namazu-users-ja(旧)


[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]

RE: PDF ファイルのインデクス作成について



 山村です。

 そのPDFは日本語のファイルではないでしょうか。
 xpdfrcは書き換えましたか?

http://www.foolabs.com/xpdf/download.html

 ここから、「Language Support Package」を入手して、
付属のドキュメント通り、pdftotxtと同じ階層にxpdfrc
というファイルを置いて、そこに追記する必要があり
ます。こんな感じです。

 パスはLanguage Packを展開したディレクトリに置き
換えてください。
 わたしの環境はWindowsなもので。

#----- begin Japanese support package (2002-apr-01)
cidToUnicode	Adobe-Japan1	c:\namazu\bin\japanese\Adobe-Japan1.cidToUnicode
unicodeMap	ISO-2022-JP	c:\namazu\bin\japanese\ISO-2022-JP.unicodeMap
unicodeMap	EUC-JP		c:\namazu\bin\japanese\EUC-JP.unicodeMap
unicodeMap	Shift-JIS	c:\namazu\bin\japanese\Shift-JIS.unicodeMap
cMapDir		Adobe-Japan1	c:\namazu\bin\japanese\CMap
toUnicodeDir			c:\namazu\bin\japanese\CMap
displayCIDFontX	Adobe-Japan1	"-*-fixed-medium-r-normal-*-%s-*-*-*-*-*-jisx0208.1983-0" ISO-2022-JP
#----- end Japanese support packag

 どうでしょう。


> -----Original Message-----
> From: 平野 雄一 [mailto:hirano@xxxxxxxxxxxxxx]
> Sent: Tuesday, July 30, 2002 11:42 AM
> To: namazu-users-ja@xxxxxxxxxx
> Subject: [namazu-users-ja] Re: PDF ファイルのインデクス作成について
> 
> 
> 
> 平野@teraです。
> 以下、インデクス作成時のエラーを回避するために行った作業の補足です。
> 
> >/usr/local/src/xpdf-1.01/xpdf/pdftotext.cc の151−154行目をコメントアウトしました。
> >**********************************************************************
> >  // check for copy permission
> >  //if (!doc->okToCopy()) {
> >  //  error(-1, "Copying of text from this document is not allowed.");
> >  //  goto err2;
> >  //}
> >**********************************************************************
> 
> この後に再度コンパイル(configure、make、make install)を行っております。
> その他の方法についてご存知の方がいらっしゃいましたらご教授お願い致します。
> 
> -以上です-
> 
> 平野 雄一 さんは書きました:
> >山村さん、小笹さん
> >
> >情報ありがとうございます。平野@tera です。
> >ご教授頂いた方法の通りにpdf.pl を修正してみました。
> >
> >以下、修正した内容です。
> >──────────────────────────────────
> >/usr/share/namazu/filter/pdf.pl を修正。
> >73行目の
> >      system("$pdfconvpath -q -eucjp -raw $tmpfile $tmpfile2");
> >    ↓
> >      system("$pdfconvpath -q -enc EUC-JP -raw $tmpfile $tmpfile2");
> >へ修正。
> >──────────────────────────────────
> >
> >しかし、mknmz コマンドを入力した際に以前と同様に
> >────────────────────────────
> >Unable to convert pdf file (maybe copying protection)
> >────────────────────────────
> >と表示されうまくいきませんでした。
> >
> >
> >そこで下記のURLを参考にして
> > http://vzzbx.xs4all.nl/files/xpdf-0.93-ro-remove.patch
> >/usr/local/src/xpdf-1.01/xpdf/pdftotext.cc の151−154行目をコメントアウトしました。
> >**********************************************************************
> >  // check for copy permission
> >  //if (!doc->okToCopy()) {
> >  //  error(-1, "Copying of text from this document is not allowed.");
> >  //  goto err2;
> >  //}
> >**********************************************************************
> >
> >今のままでとりあえずは動きます。
> >しかし、本来コピーフラグを見る部分をコメントアウトしているので
> >あまり良い方法とは思えないのですが、他の方はどのように対処しているのでしょうか?
> >他に方法をご存知の方がいらっしゃいましたらご教授頂けないでしょうか?
> >
> >-以上です-
> >
> >小笹 正志 さんは書きました:
> >>> PDFファイルのインデクスを作成し、PDFファイルも検索対象としたいのですがうま
> >>くいきません。
> >>> 現状は、xpdf-1.01 を configure 時に -enable-japanese オプションを付けコン
> >>パイルし、
> >>> mknmz コマンドを用いてPDFファイルのインデクスを作成しようと試みましたが、
> >>> 以下のエラーが発生し、インデクスを作成することができない状態です。
> >>>
> >>多分こちら(http://www.namazu.org/ml/namazu-users-ja/msg02631.html)で対応で
> >>きると思います。
> >>
> >>        (社)神奈川県薬剤師会 小笹 正志      
> >>
> >>
> >>
> >
> >====== mailto: hirano@xxxxxxxxxxxxxx ========
> >   テラインターナショナル株式会社
> >    システム開発部 平野 雄一
> >   Tel 03-5979-7173 Fax 03-5979-7175
> >====== URL: http://www.teraintl.co.jp =======
> 
> ====== mailto: hirano@xxxxxxxxxxxxxx ========
>    テラインターナショナル株式会社
>     システム開発部 平野 雄一
>    Tel 03-5979-7173 Fax 03-5979-7175
> ====== URL: http://www.teraintl.co.jp =======
> 
>