Namazu-devel-ja(旧)


[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]

全角半角変換



臼田です

中途半端で気になっていた一太郎フィルタtaro56.plとtaro7_10.pl
に手を加えて罫線等の制御コードをなるべく除去するように直し
てcommitしました。

罫線、図表や半角カナがたくさん混ざったjtdファイルを試している
うちに気になってどうしようか悩んでいるところがあります。

taro7_10.plの出力で現在以下の3点が気になっています
1.丸数字、"−"、"〜"が消滅する。
utf16->EUCの変換に用いているunicode.plがwindows系の
変換表CP932を使用していないためなのですが、通常
検索語に使う文字ではないだろうから無視しようと思って
います。

2.半角カナを全角にせずにEUCの2byte半角カナのまま出力し
  ている。
3.全角英数、記号をそのまま出力している。
codeconv.plに更にサブルーチンを設けるか、最後にnkfを通し
て正規化を任すのがよいのかこのままにしておくのがよいのか
悩んでいます。

http://www.namazu.org/ml/namazu-users-ja/msg03276.html
http://www.namazu.org/ml/namazu-users-ja/msg03291.html
で最近話題が出ているので過去のメールも探したのですが

「変換したほうが検出されやすくなるのでよい」ということ
まではわかるのですが半角カナ -> 全角カナ変換はnkfの標
準動作のようなので「変換しなければ検索で検出されない」
なのかどうかがよくわかりませんでした。

msword.plやexcel.plなどlvを使用しているフィルタモジュー
ルは半角カナも全角英数を気にしているようには見えないので
どうしようかと思っているところです。

半角カナ、全角英数の扱いにルールはなにかあるのでしょうか?

臼田幸生