Namazu-users-ja(旧)


[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]

about pdf file



松永と申します。

debian/woody のパッケージで namazu を使わせていただいています。
日本語の pdf のインデックス付けについてですが、最初
mknmz hoge.pdf としてもうまくインデックスが出来ませんでした。

調べたところ pdf.pl の中に
system("$pdfconvpath -q -eucjp -raw $tmpfile $tmpfile2");
という記述がありましたが、手で

pdftotext -q -eucjp -raw hoge.pdf hoge.txt
とするとエラーになってしまいます。しかし

pdftotext -q -enc EUC-JP -raw hoge.pdf hoge.txt
とすれば、hoge.txt は一応読めます。

そこで pdf.pl の当該部分を

system("$pdfconvpath -q -enc EUC-JP -raw $tmpfile $tmpfile2");
と書き換えてみましたところ、無事 pdf ファイルのインデックスが作れたよ
うに思えます。

さて、これでよかったのでしょうか。それとも他に正しい方法があるのでしょ
うか。

関係のありそうなパッケージのバージョンは次の通りです。

ii  namazu2                            2.0.10-1  
ii  namazu2-common                     2.0.10-1  
ii  namazu2-index-tools                2.0.10-1  

ii  xpdf                               1.00-3    
ii  xpdf-common                        1.00-3    
ii  xpdf-japanese                      20020202-1
ii  xpdf-reader                        1.00-3    
ii  xpdf-utils                         1.00-3    

# pdf ファイルには nmzgrep は使えないんですよね?