[Namazu-users-ja 120] Re: インデックス作成について

Tadamasa Teranishi yw3t-trns @ asahi-net.or.jp
2004年 11月 25日 (木) 21:28:20 JST


寺西です。

stone_river wrote:
> 
> 先日、namazuをインストールしました。
> 
> 環境は、
> SunOS 5.9
> perl v5.6.1
> nkf204
> darts0.2
> chasen2.3.3
> text-chasen1.03
> namazu2.0.13,
> ipadic2.6.3
> gettext0.14.1
...
> インデックス作成について、お聞きしたいことがありまして、メールした次第です。
> 例えば、下記の様な test.htmlといったファイルに対して、インデックスを作成
> するときですが、
...
> このhtmlファイルからインデックスを作成する場合、NMZ.wは、
> 
> LANG=C の場合

日本語の文書を処理するには LANG=C は使えません。

> LANG=jaの場合

必然的に LANG=ja* を使うことになります。(実際に設定する値は、
ja か ja_JP.eucJP か、環境に依存します。)

> この2つの結果を併せた様なインデックス(sitdown,stand,up,aba,ホームページ・・
> ,) になってもらいたいのですが、この様な結果を望む場合どの様なインデック
> ス作成方法があるのでしょうか。
> (別々に作成して、マージすれば済む問題なのでしょうか。それとも、より簡素な
> 方法があるのでしょうか。)

chasen の問題です。古い chasen に namazu パッチを当てると良いので
すが、最近の chasen だと半角文字が文字単位に分割されてしまいます。

~/.chasenrc に

(COMPOSIT_POS ((名詞 数))
          ((記号 アルファベット)))

を入れると直りませんか?

他の方法としては、kakasi を使うという手もあります。
-- 
=====================================================================
寺西 忠勝(TADAMASA TERANISHI)  yw3t-trns @ asahi-net.or.jp
http://www.asahi-net.or.jp/~yw3t-trns/index.htm
Key fingerprint =  474E 4D93 8E97 11F6 662D  8A42 17F5 52F4 10E7 D14E




Namazu-users-ja メーリングリストの案内