Namazu-win32-users-ja(旧)


[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]

Re: 中間一致(部分一致)についてのプログラムについて



小舞です。

Chihiro Hamatani さんは書きました:
> 小舞さんのページを見てて、NMZ.slogの使い方は目から鱗でした。
> 私はChasenを使っているので、Chansenに辞書に自分で単語をときどき追加して
>mknmzやり直していました。
> これを、NMZ.slogの検索語をChasenの辞書に追加してからmknmzをやり直すと、
>自分で辞書に登録しなくてもそれなりに良い辞書が作れそうですね。
> NMZ.slogになんらかのフィルタ(例えば複数のIPから検索された単語のみ)とか
>すれば、もっと良い辞書になるかな……今度試してみます。
そうですね。NMZ.slogの再利用は、以前から話題として、時々MLで
あがっていたようです。

自分は、めんどくさがりやというのもあり、この放り込んでおけばよい
というところも気に入っています。(nmzrの場合)

> 肝心のnmzrの方は……見てません。ごめんなさい。
いえいえ、Chasenは自分は使った事がないので、どのような原理で
分かち書きされているのか(WWWのページでだいたいはわかりますが)
具体例が自分は未経験なので、nmzrがどのように効果的なのか(はたまた全然効果ないのか)
分かりません。すみません。(Chasenだと、可能性のある分かち書きを全て出力するという
オプションがあった筈なので、それと似た結果にはなるとは思いますが。)

ただ、KAKASIの方は、最長一致の原則がありますので、nmzrと相性が良い
と思っています。(というか実際は逆で、最長一致の原則があるから
それを活かそうと思って作成しました)

特に、外来語から来るカタカナ語の氾濫の昨今(なんといかめしい表現!)
カタカナ語の複合語を、アプリオリな知見で、分かち書きすることは、
そもそも不可能だと思っているので、素直に、NMZ.slogとか、いろいろな
メルマガのようなものから、自動的に収集した方が的確だと思っています。
何より、人間が入力した検索語等は、HOTですから。。。
それを自動化するという意味もnmzrにはあります。

例えば、「ティッシュエンジニアリング」
と言う言葉がありますが、これは細胞を培養して組織・臓器を
人工的に作りだす技術で最近はやりの技術なのですが、
こんな単語を、予め分かち書きで「ティッシュペーパー」の
「ティッシュ」という単語で引けるようにしろ!
なんて分かち書きに教え込むのはできないことはないでしょうが、、
難しそうですし。。