[Namazu-users-ja 927] Re: Unicode(UTF-8)の使用

Yukio USUDA m6694ha392t @ asahi-net.or.jp
2006年 10月 30日 (月) 23:34:06 JST


臼田です

On 2006/10/28, at 12:47, 田中 wrote:

>
> NamazuでUTF-8を使用してインデックス作成、検索を行いたい 
> と思います。
> 現在の安定版ソースコード(Namazu2.0.16)でUTF-8は 
> 使用可能でしょうか?
> どなたかご教示いただけないでしょうか?
>
> OSはCentOSを使用しており、文字コードはUTF-8です。
> 検索対象のファイルはExcel、Word、PDF、 
> PPT、テキストファイルを考えて
> おります。

質問だけでは utf-8 をどこに使用することを
考えているのかよくわかりませんが

テキストファイルの文字コードに utf-8 が
使用されているということであれば
Namazu2.0.16 でも利用できます。
http://www.namazu.org/FAQ.html#utf-8
ただし、安定版では内部で euc-jp に変換
することになるので euc-jp 範囲外の文字
が使われているのであればその文字は欠落
します。


また、端末の文字コードを utf-8 のままで
使用したいということであれば
インデックス作成時には
$ mknmz [options] 対象ディレクトリ | nkf  -w

とするとか

検索時には

#!/bin/bash
query=`echo $1|nkf -e`
/usr/local/bin/namazu $query $2 | nkf -w
といったスクリプトを作成して namazu への入出力時

の文字コードを変更するようにすればそれなりに使えます。


>
> Namazuの構成部品のバージョンは下記のものを使用しています。
> Perl: v5.8.5
> nkf: 2.0.5
> KAKASI: 2.3.4
>
> また、文書フィルタにxlhtml、wvWare、xpdfの使 
> 用を考えていますが、
> それぞれの部品に必要なバージョンなどあるでしょうか?

多少古いバージョンでも動作はしますが
特に理由がないのであればそれぞれ最新のバージョンを
使用することをおすすめします。

臼田幸生




Namazu-users-ja メーリングリストの案内