[Namazu-devel-ja 1152] Re: 文字 N-gram ぽい実験 (Re: フレーズ検索って N-gram ですよね

Tadamasa Teranishi yw3t-trns @ asahi-net.or.jp
2006年 8月 12日 (土) 10:18:09 JST


寺西です。

Tadamasa Teranishi wrote:
> 
> Namazu の設計はやり直さないで、既存のフレーズ検索(単語 N-gram ぽい)
> に手を加えて、簡単な修正で文字 N-gram ぽい検索システムとしても使える
> かな? というのが、実験の目的です。

この実験で用いた修正を HEAD に反映しました。

> mknmz の修正箇所は、
> 分かち書き処理の代わりに、ASCII 7bit 文字以外を1文字ずつに分解する
> 処理を追加するだけです。

$WAKATI = "n-gram";

と指定できるようにしました。

> namazu, namazu.cgi の方は、検索文字列が見つからない場合、分解して
> フレーズ検索を行う機能が付いているのですが、この際、ひらがな、
> カタカナはその処理を行いません。
> この例外を外すと、ASCII 7bit 文字以外はフレーズ検索で検索を行う
> ようになります。この修正もほんのわずかです。

-DNGRAM 付きでコンパイルすると、この処理を行うように変更されます。
-DNGRAM 付きでコンパイルしたものは、簡易 N-gram 処理専用となり、
$WAKATI = "n-gram"; 
で作成したインデックスのみに対応します。
-- 
=====================================================================
寺西 忠勝(TADAMASA TERANISHI)  yw3t-trns @ asahi-net.or.jp
http://www.asahi-net.or.jp/~yw3t-trns/index.htm
Key fingerprint =  474E 4D93 8E97 11F6 662D  8A42 17F5 52F4 10E7 D14E




Namazu-devel-ja メーリングリストの案内