namazu-ml(ring)


[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]

Re: Non wakatigaki



古川です。

>> On Thu, 13 May 1999 13:05:08 +0900, Satoru Takabayashi <satoru-t@xxxxxxxxxxxxxxxxxx> said:
  >> (1) -i というオプションをつけると、内蔵の簡易わかち書きルーチンを
  >> 使います。
  > これはどの程度、使いものになるのでしょう? そこそこ使えるよう
  > なら取り込みたいと思います。どなたか調査してくださいません?

avocado の spool を素材に、実験してみました。

[速度]
    kakasi を呼ぶよりは速い (module は試していません)

    kakasi を呼ぶ場合
        [Base]
        Date: Tue May 18 00:17:50 1999
        Added Files: 1,960 files
        Total Files: 1,960 files
        Size: 4,942,282 bytes
        Added Keywords: 57,079 words
        Total Keywords: 57,079 words
        Wakati: /usr/local/bin/kakasi -ieuc -oeuc -w
        ARGV: '-ahus' '/usr/home/furukawa/avocado/spool'
        Perl Version: 5.00502
        Namazu Version: 1.4.0.0-beta-8
        System: freebsd
        Time: 645 sec.

    内蔵簡易ルーチン
        [Base]
        Date: Tue May 18 00:05:19 1999
        Added Files: 1,960 files
        Total Files: 1,960 files
        Size: 4,942,282 bytes
        Added Keywords: 40,206 words
        Total Keywords: 40,206 words
        Wakati: /usr/local/bin/kakasi -ieuc -oeuc -w
        ARGV: '-ahius' '/usr/home/furukawa/avocado/spool'
        Perl Version: 5.00502
        Namazu Version: 1.4.0.0-beta-8
        System: freebsd
        Time: 343 sec.

[サイズ]
    サイズに差が出るのは、次のものです。

             kakasi     内蔵簡易ルーチン
    NMZ.ii   228316               160824
    NMZ.i   1959564              1594627
    NMZ.p    695358               309322
    NMZ.w     82045               605762


[精度]
    普通に kakasi を呼んだ場合、NMZ.w に登録される、2 文字以上の漢字語
    は、3398 でした。これらの語について、

        kakasi を使ったデータベースではヒットしないが
        内蔵簡易ルーチンを使うとヒットする

    ケースを調べ、さらに、grep して、誤ヒットを抜き出しました。

    # なぜ、ここで grep したかというと、
    # 例えば、「文書」を検索した場合に、「全文書」という語が含まれる
    # ファイルは、kakasi を呼んだデータベースではヒットしませんが
    # 簡易ルーチンを使ったものではヒットします。
    # しかし、これを「誤ヒット」と呼ぶのは、ちょっと違う
    # (少なくとも、ハッシュの衝突によるものとは区別すべき)
    # と思ったからです。

    [結果]
        95 語にて、誤ヒットが起きた (95/3398 = 2.8%)

        それら 95 語については、平均して
        17.4 ファイルがヒットし、そのうち 1.8 が誤ヒットであった


    ただし、mailing list のように、1 つのファイルが、比較的小さい
    場合はいいですが、大きなファイルを扱うケースでは、ミスヒットの
    割合が増えるはずです。


    [参考]
        -K オプション (記号を削除) と併用すると、

        誤ヒット: 73 語 (73/3398 = 2.1%)
        誤ヒット時: 22.6 ファイルがヒットし、そのうち 2.0 が誤ヒット

        と、なりました。

これをどう評価するか、ですが、私は「使いものになる」と考えています。

あとは、ひらがなが登録されないことを、よしとするか、ですね。


# 最終判断は、もちろんお任せします。
-- 

                                        ヤマハ(株)ピアノプレーヤ設計課
                                                              古川 令
                                             furukawa@xxxxxxxxxxxxxxxx