Namazu-devel-ja(旧)


[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]

長い単語の排除



寺西です。

NMZ.w には極力無駄な単語を登録したくない、NMZ.i のファイルサイズを
極力小さくしたい第2段として、長い単語の排除を考えています。

NMZ.w をみていると、無意味な長い文字列が登録されていることがあります。
おそらくは uuencode したテキストの一部とかではないかと思いますが、
出所元は特定できていません。
また、"---------------------------------------------" のようなものも
登録されていることがあります。(後者は -K で削除されるようですが。)

これらを意図して検索することは皆無と思われますので、mknmz で排除
してもよいものと思います。

最も長い英単語で知られるのは、“floccinaucinihilipilification”
ですが、他にも
  “supercalifragilisticexpialidocious”
  “pneumonoultramicroscopicsilicovolcanoconiosis”
  “Llanfairpwllgwyngyllgogerychwyrndrobwllllantysiliogogogoch”
などがあるようです。
http://www.sanseido.net/Main/patio/patio03.html

実質、“floccinaucinihilipilification”より長い正しい単語があった
としても、それを検索することは少ないでしょうし、それを検索したい
人には申し訳ないですが、検索できなかったとしてもあまり困らない
ものと思います。

長い単語は、かなり高い確率で、無意味な文字列であると考えることが
できるかと思います。

ということで、デフォルトで 30 文字以上の単語は排除するというルール
の追加はいかがでしょう。(パラメータで値を変更できなくても、ヘッダ
で値を定義するような形で十分だと思っています。カスタマイズしたい人
は、#define した値を変更してもらえばいいわけですし。)

みなさまに支持されれば、パッチでも作ろうかと思っています。
私の気づかない懸念事項などがあるかもしれませんので、みなさまの
ご意見お聞かせいただけると幸いです。

# 劇的に無駄が減るわけではないわけですが、千里の道も一歩からですので。
-- 
=====================================================================
寺西 忠勝(TADAMASA TERANISHI)  yw3t-trns@xxxxxxxxxxxxxxx
http://www.asahi-net.or.jp/~yw3t-trns/index.htm
Key fingerprint =  474E 4D93 8E97 11F6 662D  8A42 17F5 52F4 10E7 D14E