Namazu-devel-ja(旧)


[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]

Re: 「プロ野球チームをつくろう」検索問題



馬場@京大宇宙物理 です。

 From: 小関 吉則 (KOSEKI Yoshinori) <kose@xxxxxxxxxxxxxxxxxx>
 Subject: [namazu-devel-ja] 「プロ野球チームをつくろう」検索問題
 Date: 17 Apr 2000 11:55:32 +0900

 > kose> http://www.sega.co.jp/

# セガは、昔は SSE だったですね。
# 昨年の後半には Namazu に移行したようですが。


 > kose> で検索しても、検索できなかったということなのですよね。
 > プロ野球チームをつくろう
 > で検索しても見つかりません。
 > プロ 野球 チーム つくろう
 > で検索すれば見つかります。

うーむ、これは、「を」の扱いが違うからですね。
# またか、とおもわれるかもしれませんが...

http://www.sega.co.jp/ で、

[1] 検索式: プロ野球チームをつくろう
[2] 検索式: プロ野球チームを つくろう
[3] 検索式: プロ野球チーム を つくろう

の三種類で検索すると、以下のようになります。


[1]
参考ヒット数: { [ プロ: 277 ] [ 野球: 206 ] [ チーム: 485 ] [ をつくろう: 0 ] :: 0 } 
検索式にマッチする文書はありませんでした。

[2]
参考ヒット数: { [ プロ: 277 ] [ 野球: 206 ] [ チーム: 485 ] [ を (ヒット数が多すぎるので無視しました) ] :: 0 } [ つくろう: 78 ] 
検索式にマッチする文書はありませんでした。

[3]
参考ヒット数: { [ プロ: 277 ] [ 野球: 206 ] [ チーム: 485 ] :: 50 } [ を (ヒット数が多すぎるので無視しました) ] [ つくろう: 78 ] 
検索式にマッチする 34 個の文書が見つかりました。


[1] は、インデックス段階で KAKASI が「プロ 野球 チーム を つくろう」
と分けている一方、検索式段階で「をつくろう」という平仮名文字列を検
索しようとするから、0件になってます。

[2] は、「を」を無視しているのはいいけど、フレーズ検索しているため
に、0件になってます。これは namazu-devel-ja 00387 で高久さんが報告
されているのと同じ(あるいは似た)症状だとおもいます。

[3] は、まあ当然大丈夫ですな。


まあ、「フレーズ検索は100%ではない」と最初から断っているのだから、
そらまあしょうがないよな、という気が個人的にはするのですが、敢えて 
[1] に対処するなら、検索式のパースで、KAKASI (あるいは ChaSen)と同
じように、「を」を特別扱いするようにしなければならないでしょう。

しかしまあ、そもそも、ひらがなが多かったら、KAKASI だろうがChaSen 
だろうが、曖昧性の解消を機械的にやるのは極めて困難/不可能なのは最
初からわかっているのだから、「こういうものだ」と割りきるのが一番い
い気はします。

一方、[2] は、バグあるいは仕様のどちらとも言えなくもないので、要検
討課題でしょう。
--
馬場  肇 ( Hajime BABA )            E-mail: baba@xxxxxxxxxxxxxxxxxxxxxx
京都大学理学部宇宙物理学教室 博士後期課程
--