namazu-ml(avocado)


[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]

Non wakatigaki



かわとです。

先に断っておきますが、検索に関してはド素人です(ロボット側の実装は
やったことがありますが)。おかしな点があれば突っ込んでください(^^;。
あと、過去の議論全てに目を通したわけでもないので、すでに「やらない」
という話になってたのであればご容赦ください。

□■ Satoru Takabayashiさんから 11月26日(Thu)14時35分頃に頂いたメイル、
■□『 [namazu:01661] wakatigaki with perl (Re: HTML detection) 』より。
>できれば kakasidict にある『北陸先端科学技術大学院大学』のような長
>い複合語 (?) を細かく分解したり、あるいは大きなわかち書きと細かい
>わかち書きを併記するオプションがあると嬉しいです。

そもそも「意味のある単語でのわかち書きをやめて、最少単位まで切って
その繋がりに意味を持たせる」という方向性はどうでしょう? 例えば、
「北」→「陸」→「先」→「端」のようなイメージです。「陸先」では
ひっかかるけど、陸北先端ではひっかからない、という感じ。

結構、こういうタイプの検索エンジンって増えてきてますよね(?)。いや、
実装がどうなっているのかまでは知りませんが、感覚的に(^^;。
まさかgrepとも思えないですし(^^;;;。

#ここらへん、詳しい方、教えてください_o_

--

で、ここへ至った経緯ですが、、、。

私がNamazuを導入したのは、とあるMLのアーカイブ検索だったのですが、
そこは話し言葉が主体でひらがな書きの比率も高く、kakasiは論外として
も、chasenですらなかなかうまくキーワードを切ってくれませんでした。
また、誤字/脱字/誤変換/誤用によりchasenの解析ミスも多く(;_;)、拾え
るはずの単語を落す場合もありました。

#例えば、(私もそうですが;-)人名のひらがな書きは致命的で「xxさんを
#検索したけど全然出てこない」なんていうのは試せば試すだけ出てきま
#す。特に、「ー」の代わりに「〜」を使う人たちなんかは、(少なくとも
#Chasenのパーザに手を入れないかぎりは)辞書登録をしないと絶対に引っ
#かかりません。でも、「検索エンジンに引っかからないからやめてね」
#というのもどうかと思いますしね(^^;;;。

たしかに技術系MLのように、探すキーワードは英単語や漢字単語主体であ
ればNamazu+kakasi(chasen)でうまくいくとは思いますが、そうでない場
面で運用をする場合は、実際のところ、辞書依存のわかち書きではうまく
いきません。

で、導入する側のメンバーはまだ何となく仕組みが分るのでいいのですが、
使う相手は素人1,000人以上なので、「ちゃんと存在するはずの単語がな
んで検索できないの? こわれてるんじゃないの?」ということになってし
まうのでした。

というわけで、「存在する単語はちゃんと探せる」というのがこなせない
と困る、というのがアーカイブ検索担当の私に科せられた指名なのです;-)

--

もっとも、これはNamazuが悪いと言うよりは、わかち書きエンジン側の問
題だとは思います。ですが、辞書(やシソーラス)に頼らずに高性能なわか
ち書きを実現するのはきっと難しいだろうと思いますし、そうであれば、
検索エンジン(Namazu)側で頑張ってもらうしかないのかなぁ、と思ってい
るわけです。

とはいえ、おそらく今のNamazuの枠組でフリーワード検索をやるのはかな
り無理があると思いますし、せっかくの既存の良いところを犠牲にしてし
まうのは本意ではないので、長いスパンで検討していただけると嬉しいで
す。
------------------------------------------------------------------
 -- 川戸 勝史(KAWATO Katsushi) --       <kawato@xxxxxxxxxxxxxxxx>
                (株)NEC情報システムズ・情報インターネットSI事業部
------------------------------------------------------------------