[Namazu-devel-ja 1152] Re: 文字 N-gram ぽい実験 (Re: フレーズ検索って N-gram ですよね
Tadamasa Teranishi
yw3t-trns @ asahi-net.or.jp
2006年 8月 12日 (土) 10:18:09 JST
寺西です。
Tadamasa Teranishi wrote:
>
> Namazu の設計はやり直さないで、既存のフレーズ検索(単語 N-gram ぽい)
> に手を加えて、簡単な修正で文字 N-gram ぽい検索システムとしても使える
> かな? というのが、実験の目的です。
この実験で用いた修正を HEAD に反映しました。
> mknmz の修正箇所は、
> 分かち書き処理の代わりに、ASCII 7bit 文字以外を1文字ずつに分解する
> 処理を追加するだけです。
$WAKATI = "n-gram";
と指定できるようにしました。
> namazu, namazu.cgi の方は、検索文字列が見つからない場合、分解して
> フレーズ検索を行う機能が付いているのですが、この際、ひらがな、
> カタカナはその処理を行いません。
> この例外を外すと、ASCII 7bit 文字以外はフレーズ検索で検索を行う
> ようになります。この修正もほんのわずかです。
-DNGRAM 付きでコンパイルすると、この処理を行うように変更されます。
-DNGRAM 付きでコンパイルしたものは、簡易 N-gram 処理専用となり、
$WAKATI = "n-gram";
で作成したインデックスのみに対応します。
--
=====================================================================
寺西 忠勝(TADAMASA TERANISHI) yw3t-trns @ asahi-net.or.jp
http://www.asahi-net.or.jp/~yw3t-trns/index.htm
Key fingerprint = 474E 4D93 8E97 11F6 662D 8A42 17F5 52F4 10E7 D14E
Namazu-devel-ja メーリングリストの案内