[Namazu-users-ja 553] Re: htmlファイルのみを検索対象にする

Tadamasa Teranishi yw3t-trns @ asahi-net.or.jp
2005年 10月 24日 (月) 19:08:10 JST


寺西です。

中本温子 wrote:
> 
> 最初は問題なく、インデックスを作成していましたが、途中から下記のエラーが
> 出てしまいました。

ワーニングですね。

> Malformed UTF-8 character (unexpected continuation byte 0xa1, with no preceding
> start byte) in substitution (s///) at /usr/local/share/namazu/filter/html.pl lin
> e 334.
> Malformed UTF-8 character (unexpected continuation byte 0xa1, with no preceding
> start byte) in substitution (s///) at /usr/local/share/namazu/pl/gfilter.pl line
>  95.
> Malformed UTF-8 character (unexpected continuation byte 0xa1, with no preceding
> start byte) in pattern match (m//) at /usr/local/share/namazu/pl/gfilter.pl line
>  97.

# 内容的に思い当たることはあるのですが...。

環境変数 LC_ALL, LC_CTYPE, LC_MESSAGE, LANG, LANGUAGE の値はどのよう
に設定していますか?

mknmzrc の LANG には何を設定していますか?

$ locale -a | grep ja

の結果は何がでますか?

問題のHTMLファイルの中身をお見せいただくことは可能でしょうか?

> namazuは、2.0.13-1を利用していて、Configulationは次のようになっております。
> > mknmz -C
> 読み込んだ設定ファイル: /usr/local/etc/namazu/mknmzrc
> システム: linux
> Namazu: 2.0.14

mknmz は 2.0.14 だと言いはっていますが、2.0.13 なのでしょうか?
いずれにしても 2.0.14 にバージョンアップしてください。

> 今までは問題なくインデックス作成できましたが、インデックス作成対象を別の
> ものに変えたら、このようなエラーが出ました。

該当 HTML ファイルの中に ¡ というものが含まれるのでしょう。
今までのものには数値実態参照のものが含まれていなかったということ
ではないかと思います。
-- 
=====================================================================
寺西 忠勝(TADAMASA TERANISHI)  yw3t-trns @ asahi-net.or.jp
http://www.asahi-net.or.jp/~yw3t-trns/index.htm
Key fingerprint =  474E 4D93 8E97 11F6 662D  8A42 17F5 52F4 10E7 D14E




Namazu-users-ja メーリングリストの案内