Namazu-devel-ja(旧)


[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]

Re: 全角半角変換



> Yukio USUDA wrote:
> > 1.丸数字、"−"、"〜"が消滅する。
> > utf16->EUCの変換に用いているunicode.plがwindows系の
> > 変換表CP932を使用していないためなのですが、通常
> > 検索語に使う文字ではないだろうから無視しようと思って
> > います。

Tadamasa Teranishi wrote:
> "−" は、マイナスですか? 長音ですか?

長音"ー"は大丈夫です。
数年前からunicode関連では有名な話のようなので検索すると
いろいろ情報が出てきます。あまり深入りしませんが
"‖"は"|"に変わり
丸数字、ローマ数字、"−"、"〜"は対応するものがなく消えます。

> > 2.半角カナを全角にせずにEUCの2byte半角カナのまま出力し
> 検索時に入力した文字列が EUC に変換される際に、半角カナは
> 全角カナになり、検索されないのではないかと思います。
> 
> また、各所の EUC の処理において、EUC の半角カナを考慮して
> いない部分がもしかするとあるかも知れないという懸念があります。

namazu側ではindex内に半角カナはないという前提で処理がされると
いうことでしたら半角カナは全角カナに変換することを考えます。
pl/codeconv.plのktoe()を使おうと思います。

> > 3.全角英数、記号をそのまま出力している。
> 全角数字はそのままで良いと思います。
> 記号の方は、やはり nkf の結果に合わせた方が何かと良いような
> 気はします。

全角記号、全角英数は変換した方がよい、そのままがよい、といろいろ
ご意見があったと思いますので、namazuやnamzu.cgiの中身を勉強して
から対応を考えます。

臼田幸生