Namazu-users-ja(旧)


[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]

Re: [Q] make check が通らないのですが



寺西です。

teranisi@xxxxxxxxx wrote:
> 
> 次に環境変数 LANG に ja_JP.EUC を付けた場合は、
> IRIX 5.3 環境、FreeBSD 3.2R 環境共に FAIL するように
> なってしまいました。(FAIL する場所は異なる)
> 
> 現在調査中ですが、その問題のひとつに
> data/ja/acrobat3.pdf を pdftotext で処理した際に
> 問題が生じるようです。

IRIX 5.3 環境で、pdf の処理を行わない場合は、
環境変数 LANG に ja_JP.EUC を付けても make check 
は、全て PASS します。

pdftotext で data/ja/acrobat3.pdf を変換して
得られた acrobat3.txt を開いて見ると、

---------------------------------------------------
Namazu<A1><A0>は手軽に使えることを第一に目指した
日本語全文検索システムです。このファイルはテスト用です。
<A1><A0><A1><A0><A1><A0><A1><A0><A1><A0><A1><A0>
<A1><A0><A1><A0>
<A1><A0>
test@namazu。org<A1><A0>
<A1><A0>

^L
---------------------------------------------------
というように制御コード(?)のようなものが含まれています。

十分確認していませんが、NMZ.w に <A1><A0>... な
コードが含まれている状態だと、
存在する文字列であっても、検索に引っ掛からないことが
あるようです。
# これは NMZ.w に入っていることが問題だと言っている
# わけではありません。(念のため)

結果、make check に失敗します。

# そういえば、何方かが pdftotext の問題を指摘して
# いたような。

これは、pdftotext の問題なので仕方ないのでしょうか?
他のプラットフォームの pdftotext は正常に動作し、
日本語環境+PDFフィルタ付きの状態で、make check が
通るのでしょうか?

実は pdftotext を適当にコンパイルして作ったので、
少し気になっていますが、FreeBSD 版でも大差ありませんでした。

FreeBSD は、それ以外にも問題がありそうです。
--
寺西