Namazu-devel-ja(旧)


[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]

Re: 全角半角変換



寺西です。

Yukio USUDA wrote:
> 
> 1.丸数字、"−"、"〜"が消滅する。
> utf16->EUCの変換に用いているunicode.plがwindows系の
> 変換表CP932を使用していないためなのですが、通常
> 検索語に使う文字ではないだろうから無視しようと思って
> います。

"−" は、マイナスですか? 長音ですか?
 
> 2.半角カナを全角にせずにEUCの2byte半角カナのまま出力し
>   ている。

これは、今のところ全角に変換した方が良いような気がします。

> 3.全角英数、記号をそのまま出力している。

全角数字はそのままで良いと思います。
記号の方は、やはり nkf の結果に合わせた方が何かと良いような
気はします。

> codeconv.plに更にサブルーチンを設けるか、最後にnkfを通し
> て正規化を任すのがよいのかこのままにしておくのがよいのか
> 悩んでいます。

nkf 相当の変換が必要なんだろうとは思います。ただ、
EUC になったものを nkf で変換するのは無理みたい
(EUC半角カナ を入力すると、無視される)
ですので、Unicode から SJIS に変換した後、toeuc で EUC に変換
するといった面倒なことになるのかもしれません。
 
> 「変換したほうが検出されやすくなるのでよい」ということ
> まではわかるのですが半角カナ -> 全角カナ変換はnkfの標
> 準動作のようなので「変換しなければ検索で検出されない」
> なのかどうかがよくわかりませんでした。

検索時に入力した文字列が EUC に変換される際に、半角カナは
全角カナになり、検索されないのではないかと思います。

また、各所の EUC の処理において、EUC の半角カナを考慮して
いない部分がもしかするとあるかも知れないという懸念があります。
 
> msword.plやexcel.plなどlvを使用しているフィルタモジュー
> ルは半角カナも全角英数を気にしているようには見えないので
> どうしようかと思っているところです。

たぶん、msword.pl や excel.pl も全角カナに変換する必要が
あるのではないかと思います。すくなくとも現状の Namazu では。
 
> 半角カナ、全角英数の扱いにルールはなにかあるのでしょうか?

基本的には、半角カナは全角カナに変換して、半角カナと全角カナは
区別しない(nkf に合わせる)というのが事実上のルールではないでしょうか。
-- 
=====================================================================
寺西 忠勝(TADAMASA TERANISHI)  yw3t-trns@xxxxxxxxxxxxxxx
http://www.asahi-net.or.jp/~yw3t-trns/index.htm
Key fingerprint =  474E 4D93 8E97 11F6 662D  8A42 17F5 52F4 10E7 D14E