Namazu-devel-ja(旧)


[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]

Re: 長い単語の排除



寺西です。

"Nobuaki TOGASHI (冨樫伸明)" wrote:
> 
> > 長い単語は、かなり高い確率で、無意味な文字列であると考えることが
> > できるかと思います。
> 
> 私のところの NMZ.w には losalamitoslatinfunklovesong という複合された
> 文字列 (楽曲) があります。Google では 14 件がひっかかりました。
> 
> 同様の事例で、もっと長い文字列が存在すると考えられます。

むむむ。確かに。考えがあさはかでしたか。
無条件に長い文字列を排除してはまずそうですね。
オプションを指定した場合にのみ、排除する方向に軌道修正します。
(-K のようなものですね。)

なお、30文字以上の半角文字列で数値、記号が含まれる場合に排除という
ように、少し条件を緩和しようかとも思います。
-- 
=====================================================================
寺西 忠勝(TADAMASA TERANISHI)  yw3t-trns@xxxxxxxxxxxxxxx
http://www.asahi-net.or.jp/~yw3t-trns/index.htm
Key fingerprint =  474E 4D93 8E97 11F6 662D  8A42 17F5 52F4 10E7 D14E