Namazu-devel-ja(旧)


[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]

Re: 全角半角変換



寺西です。

Yukio USUDA wrote:
> 
> > 少なくても現状の 2.0 系は nkf にあわせるのが無難かと。
> 
> 2.0系での(nkfでないツールで)eucにコード変換した後の正規化処理ですが
> 当面、nkfと比べて現状で足りないものについて
>  ・EUC半角カナの全角化:codeconv:eucjp_han2zen_kana()を利用可能
>  ・全角英数のASCII化:変換ルーチンが不足
>  ・全角記号の半角化:nkfでは実施しているが無視してもよい?

全角記号の半角化 はあるにこしたことはありませんが、なくても
あまり困らないので、将来 normalize_euc_jp() に組み込むという
ことでよいかと思います。
(記号の検索はあまりしないものという仮定です。)

> 問題がなくて、統一した方がよければlvで文字コード変換している他の
> フィルターでも呼び出すようにしようと思います。

良いと思います。

> 現状ではアルファベットの大文字→小文字の正規化がどこか別のところで
> 行われているようなので、2.1系に向けては可能であれば正規化処理も複数
> 箇所で行わずにどこかに集めてあげることになると思います。

そうですね。

ちなみに
2.0.12 の mknmz では count_words() で大文字->小文字変換を行っている
ようです。バージョンによっては場所が異なっていたと思いますが、
tr/A-Z/a-z/ を行っているところです。

で、何故 大文字->小文字変換をここでしているかですが、おそらく
要約は原文のままにしたいからでしょう。(半角文字にはなりますが、
小文字で表示されるのはちょっといただけないですから。)

> (ウムラウト付き文字なども正規化したほうが検索しやすいのかもしれない
> とふと思いついたので正規化ルールは整理する必要が要りますね)

そう思います。
-- 
=====================================================================
寺西 忠勝(TADAMASA TERANISHI)  yw3t-trns@xxxxxxxxxxxxxxx
http://www.asahi-net.or.jp/~yw3t-trns/index.htm
Key fingerprint =  474E 4D93 8E97 11F6 662D  8A42 17F5 52F4 10E7 D14E