Namazu-devel-ja(旧)


[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]

Re: 「プロ野球チームをつくろう」検索問題



馬場@京大宇宙物理 です。

 From: osamu okano <osamu2001@xxxxxxxxxxxx>
 Subject: [namazu-devel-ja] Re: 「プロ野球チームをつくろう」検索問題
 Date: Wed, 26 Apr 2000 01:17:22 +0900

 > >「プロ野球チームをつくろう」を KAKASI に辞書登録したら、
 > [users-ja]の方に書いたことがあるのですが、
 > それはできません。
 > 一文字目が漢字じゃないとmkkanwaは登録してくれません。

はい、そうです。それは KAKASI の仕様です。

もちろん、一番最初にいじったときにそのことには気が付いていて、ひら
がなやカタカナから始まる単語でも登録できるように拡張できないかと考
えたことがありますが、現在に至るまで果たせずにいます。


 > 問題はkakasiが「を」を特別扱いしていることだと思います。

うーん、これは、基本的には ChaSen の挙動と同じだとおもいますが。

 > 解決策はkakasiが「を」を特別扱いしないことと

いえ、どちらかといえばむしろ逆で、namazu 側で検索文字列でも「を」
を特別扱いするようにすることではないでしょうか。mknmz で ChaSen を
使おうがKAKASI を使おうが、「プロ」「野球」「チーム」「を」「つく
ろう」と分けてインデックスするのですから、検索文字列をパースする方
が理にかなっているはずですし、現状ではそうしてないから検索できない
わけです。



ただし、この話はあくまでも「どちらかと言えば」というだけの話であっ
て、先にも言ったように、個人的には無視できることではないかとおもっ
ています。日本語には同音異義語が多いのですから、ひらがなやカタカナ
ばかりの文では、人間にとっても文脈に依存することなく曖昧性を解消す
ることは難しく(*)、つまり KAKASI/ChaSen でどうこうできる範囲を越え
ているとおもうのがその理由です。

# (*) 「ここではきものをおぬぎください」の類ね...

それに、それよりも、なんでもかんでも全文検索システムにまかせればそ
れで事足りる/あらゆる場合に対処できなければ全文検索システムではな
い、というものでもないでしょう。セガの例で言うなら、「プロ野球チー
ムをつくろう」というゲームソフトをそれなりに売ろうと考えているなら、
トップページの目立つところにちゃんとアイコンとかリンクとかタブなり
を作るべきなんであって(旧製品であるなどの理由でスペースがないなら、
いったん製品情報とかのページからリンクを張るべきなのであって)、そ
れを全文検索システムの不備であるかのように言うのは、どうにも問題の
履き違えのようにおもえてなりません。

もし検索漏れが100%絶対に許されないケースならば、そーゆーケースでは
コストは二の次なのでしょうから、「人手によるキーワード付け + RDBMS
(+ PHP とか)」でシステムを構築すべきでしょう。言いたいのは、別解は
いくらでもあるということで、こだわるほどの問題にはおもえないという
ことです。

全文検索システムの限界であることを認識しそれに挑戦する意味であれこ
れ検討するのはもちろん構いませんし、思考実験としては興味深い課題を
含んでいるとはおもいますが、基本的にはこのケースでは Namazu や形態
素解析器をこねくりまわすよりも、そういう運用面でカバーする方がより
自然で、かつユーザフレンドリーなんではないかとおもいますが、いかが
でしょうか。
--
馬場  肇 ( Hajime BABA )            E-mail: baba@xxxxxxxxxxxxxxxxxxxxxx
京都大学理学部宇宙物理学教室 博士後期課程
--