[Namazu-users-ja 187] Re: mknmzでの「^?」の扱いについて

Tadamasa Teranishi yw3t-trns @ asahi-net.or.jp
2005年 1月 15日 (土) 20:55:44 JST


寺西です。

hisatomo @ ctc-g.co.jp wrote:
> 
> mknmzによってIndex化をする際、
> 対象ファイル内の文字列に”^?”(Deleteでしょうか)が
> Index化対象ファイル内に存在すると
> その他の文字列がうまくIndex化されないようです。
> 
> 現象としては、対象ファイル内(日本語は含まれておりません)に
> ”^?”文字列発見後は以降の文字列を
> Index化をしていないと思われます。

Namazu では 0x7f は内部で特殊な意味を持たせています。
# こういう仕様もどうだかと思うけど。

このため、0x7f が含まれる文書を処理した場合、0x7f 以降の文字は
ばっさりと削除されるようです。

# バグですね。
 
> また、”^?”がファイル内に存在する際にも”^?”も含めファイル内の
> すべてをIndex化するためにはどのようにしたらよろしいでしょうか?

制御コードは全て空白文字として扱いますので、0x7f を含めて検索
することは仕様上できません。

ただし、
0x7f を空白に置換した上で処理するようにバグ修正した場合には、
0x7f 以降の文字列も処理されるようになるでしょう。

> Namazu
>         2.0.13

本件とは関係ありませんが、Namazu 2.0.14 を使いましょう。
-- 
=====================================================================
寺西 忠勝(TADAMASA TERANISHI)  yw3t-trns @ asahi-net.or.jp
http://www.asahi-net.or.jp/~yw3t-trns/index.htm
Key fingerprint =  474E 4D93 8E97 11F6 662D  8A42 17F5 52F4 10E7 D14E




Namazu-users-ja メーリングリストの案内