Namazu-devel-ja(旧)


[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]

Re: namazu-2.0.12-mecab.patch



竹迫です。

>At Tue, 15 Jul 2003 20:53:57 +0900,
>takesako@xxxxxxxxx wrote:
>> (2) MeCab には、chasen -j に相当する(句点あるいは空行を文の区切り
>>     として解析する)機能が存在しない。
>
>  MeCab も、長い文を処理しようとすると問題が発生するのでしょうか。その
>問題がないようなら -j はなくても良いと思います。

MeCab の場合は、mecabrc という設定ファイルの中で

input-buffer-size = 262144

という書き方ができて、有限ですが、再コンパイルすることなしに
入力バッファのサイズを増やすことができるようになっています。
入力のバッファサイズを実行時に変更できる API も 0.53 以降の
バージョンから追加されています。

問題になりそうなのは、改行までを一つのとして処理する
MeCab の仕様で、今のところ KAKASI と同じく、複数行に
またがった単語(文)を正確に解析することができません。

くどうさんによると「形態素解析という処理は与えられた文を形態素
に区切り品詞を付与することであり、文という単位を同定することは
含まれない」という話でした。

他のユーザから強い要望があれば、Namazu 側に前処理を追加する
ことで対応しようと思っています。

# 前処理を追加すれば、KAKASI でも同じ事が実現できますし。

>  辞書への単語登録はちょっと面倒そうですね。活用を一通り展開した上で登
>録しないといけないようですし。

一般名詞や固有名詞などの追加は良いのですが、活用する語を追加したいときは
MeCab の場合、辞書登録時に活用展開しないといけないで、ちょっと面倒ですね。
ChaSen のように解析中に活用語を動的に展開する方法とは違って、
辞書作成時に静的に展開するという方針なので、MeCab の辞書サイズは
大きくなりますが、その分解析スピードが向上できるのだと思います。

--
  株式会社ドリーム・アーツ
    竹迫 良範  <takesako@xxxxxxxxxx>