Namazu-win32-users-ja(旧)


[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]

[no subject]



From: 鍋坂 圭司 <LEL07664@xxxxxxxxxxx> さん曰く
Subject: [namazu-win32-users-ja] Re: pdf のカタカ
Message-ID: <20010118133419.3b001df0.30982@xxxxxxxxxxx>
Date: Thu, 18 Jan 2001 13:34:19 +0900

> text、htmlファイル及びAcrobatWriterで作成したpdfファイルでは
> 問題無く全角カタカナ検索できています。

はい。了解です。

ちょっと説明が足りなかったような気がするのですが、mknmz するとき
は、直接 PDF file から Index を作るのではなく、pdftotext を通し
て text に変換した file を元に Index を作ります。そのため、

>> % pdftotext file.pdf tmp.txt
>>
>> と Text に変換して、tmp.txt の中身をみて壊れていないか確かめると
>> 良いと思います。

をして tmp.txt の内容を調べるのが、原因の特定には一番早道です。
前のメールはちょっと間違えていて、

% pdftotext -eucjp file.pdf tmp.txt

が正解です。euc-jp の file になります。(_ _)

で、tmp.txt を見てみると namazu が原因でカタカナを検索できないの
か? もともとその部分が壊れているのか? というのがはっきりする、
ということです。

> PostScriptファイルの編集内容にも問題があるのでしょうか。尚、
> PostScriptファイルに記述した内容は以下の通りです。

この辺は私には(まったく)わかりません。

-- 
白井秀行 (mailto:shirai@xxxxxxxxxxxxxxxxxxx)