namazu-ml(ring)
[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]
Re: Non wakatigaki
- From: Rei FURUKAWA <furukawa@xxxxxxxxxxxxxxxx>
- Date: Wed, 19 May 1999 12:30:52 +0900 (JST)
古川です。
>> On Thu, 13 May 1999 13:05:08 +0900, Satoru Takabayashi <satoru-t@xxxxxxxxxxxxxxxxxx> said:
>> (1) -i というオプションをつけると、内蔵の簡易わかち書きルーチンを
>> 使います。
> これはどの程度、使いものになるのでしょう? そこそこ使えるよう
> なら取り込みたいと思います。どなたか調査してくださいません?
avocado の spool を素材に、実験してみました。
[速度]
kakasi を呼ぶよりは速い (module は試していません)
kakasi を呼ぶ場合
[Base]
Date: Tue May 18 00:17:50 1999
Added Files: 1,960 files
Total Files: 1,960 files
Size: 4,942,282 bytes
Added Keywords: 57,079 words
Total Keywords: 57,079 words
Wakati: /usr/local/bin/kakasi -ieuc -oeuc -w
ARGV: '-ahus' '/usr/home/furukawa/avocado/spool'
Perl Version: 5.00502
Namazu Version: 1.4.0.0-beta-8
System: freebsd
Time: 645 sec.
内蔵簡易ルーチン
[Base]
Date: Tue May 18 00:05:19 1999
Added Files: 1,960 files
Total Files: 1,960 files
Size: 4,942,282 bytes
Added Keywords: 40,206 words
Total Keywords: 40,206 words
Wakati: /usr/local/bin/kakasi -ieuc -oeuc -w
ARGV: '-ahius' '/usr/home/furukawa/avocado/spool'
Perl Version: 5.00502
Namazu Version: 1.4.0.0-beta-8
System: freebsd
Time: 343 sec.
[サイズ]
サイズに差が出るのは、次のものです。
kakasi 内蔵簡易ルーチン
NMZ.ii 228316 160824
NMZ.i 1959564 1594627
NMZ.p 695358 309322
NMZ.w 82045 605762
[精度]
普通に kakasi を呼んだ場合、NMZ.w に登録される、2 文字以上の漢字語
は、3398 でした。これらの語について、
kakasi を使ったデータベースではヒットしないが
内蔵簡易ルーチンを使うとヒットする
ケースを調べ、さらに、grep して、誤ヒットを抜き出しました。
# なぜ、ここで grep したかというと、
# 例えば、「文書」を検索した場合に、「全文書」という語が含まれる
# ファイルは、kakasi を呼んだデータベースではヒットしませんが
# 簡易ルーチンを使ったものではヒットします。
# しかし、これを「誤ヒット」と呼ぶのは、ちょっと違う
# (少なくとも、ハッシュの衝突によるものとは区別すべき)
# と思ったからです。
[結果]
95 語にて、誤ヒットが起きた (95/3398 = 2.8%)
それら 95 語については、平均して
17.4 ファイルがヒットし、そのうち 1.8 が誤ヒットであった
ただし、mailing list のように、1 つのファイルが、比較的小さい
場合はいいですが、大きなファイルを扱うケースでは、ミスヒットの
割合が増えるはずです。
[参考]
-K オプション (記号を削除) と併用すると、
誤ヒット: 73 語 (73/3398 = 2.1%)
誤ヒット時: 22.6 ファイルがヒットし、そのうち 2.0 が誤ヒット
と、なりました。
これをどう評価するか、ですが、私は「使いものになる」と考えています。
あとは、ひらがなが登録されないことを、よしとするか、ですね。
# 最終判断は、もちろんお任せします。
--
ヤマハ(株)ピアノプレーヤ設計課
古川 令
furukawa@xxxxxxxxxxxxxxxx