Namazu-devel-ja(旧)


[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]

Re: 長い単語の排除



komaiです。
NMZ.wファイル中の長いというか意味のない単語の排除
に関して。。ですが。。
実は、NMZ.wファイル中で、

http://www.stellar.ac/%7ekomai/software/namazu/research/05/index.html
で、文字列長さを72としたとき、以下のような記号と、
BASE64らしき記号がありました。

これらは、排除できないものなのかな、、と思ってしまいます。
もちろん、以前のMLにあったように、文字列長さの制限をかければ
良いのでしょうが、、
明らかに、無意味なBASE64コードは消したいのですが。。

或いは、このBASE64コードはデコードして、意味のある単語なり文字列
にしたい(のは無理というか、デコードの基を調べないといけないので)
のでしょうけど。

例1 BASE64らしき記号
kqwaacomaaardaaalawaac0maaaudaaalwwaadamaad9/f39/f39/f39/f39/f39/f39/f39

例2 単なる記号?
・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・┃↓↓↓≪
・・・…・・・…・・・…・・・…・・・…・・・…・・・…・・・…・・・…
・゜★・。・。☆・゜★・゜★・。・。☆・゜★・。・。☆・゜★・。・☆・゜