namazu-dev(ring)


[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]

Re: tolower()



Satoru Takabayashi wrote:

> インデックスを作る段階 (mknmz) で、localeを意識せずに大文字
> から小文字へ変換しているので、それに合わせて、検索側
> (namazu) でも localeを意識せずに大文字から小文字へ変換した方
> がいいです。

なるほど。mknmzでは
    # Normalize into small letter.
    $$contref =~ tr/A-Z/a-z/;
としているのですね。ならばASCIIに依存した変換の方がいいですね。
ISO-8859-1なんかでもtolowerできたら嬉しいかなとか考えたのですけど。

ところで、現在grep-2.4がリリースされていますけど、これの
regex.cを眺めてみると

/* For platform which support the ISO C amendement 1 functionality we
   support user defined character classes.  */
#if defined _LIBC || WIDE_CHAR_SUPPORT
/* Solaris 2.5 has a bug: <wchar.h> must be included before <wctype.h>. 
*/
# include <wchar.h>
# include <wctype.h>
#endif

というのがありますが、これって前からありましたっけ?
#実はhtdig-3.1.4も同じregex.cを使っていたりします。


  A A
= . . =
   V
end
Ryuji Abe