Namazu-devel-ja(旧)


[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]

Re: 長い単語の排除



寺西です。

"Komai @home" wrote:
> 
> 自分の電子メールをなまず化した時の、単語の長さの頻度分布を
> 調べてみました。参考ともなんともならないかもしれませんが。。
...
> この結果、80文字長さ(byte)以上の頻度は、少なそうです。

ありがとうございます。実に参考になります。

この結果で興味を持ったのは 80 近辺でピークが 2 つあるところです。
この文字列は

A. 意味のある有効な2種類の文字列が存在する。
B. 2種類のゴミデータが存在する。
C. 意味のあるデータとゴミデータが混在して存在する。

のどれにあたるのだろうかということです。
> 多分、URLとかのせいでしょう。
# とコメントされていますが。

A ならば、その2種類の元データは何であるかが興味深いところです。
B ならば、まさにこの2つのピークを削除したいというのが、元々の
発端です。(多少、有効なデータを犠牲にしても)
C ならば、無条件で文字の長さで削除するというのが、不適切である
という証明になります。

この2つのピークのデータの特徴をうまく掴むことで、処理ルーチンを
いろいろと考えることができるのではないかと思います。

> もちろん、対象ファイル群で、いろいろ違ってくるとは思いますが。。

そうですね。できればいろんなジャンルのデータで、グラフを比較
してみたいですね。
-- 
=====================================================================
寺西 忠勝(TADAMASA TERANISHI)  yw3t-trns@xxxxxxxxxxxxxxx
http://www.asahi-net.or.jp/~yw3t-trns/index.htm
Key fingerprint =  474E 4D93 8E97 11F6 662D  8A42 17F5 52F4 10E7 D14E