Namazu-users-ja(旧)


[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]

Re: mknmz で chasen



横井です。

[namazu-users-ja] mknmz で chasen について。

> こんにちわ、山中です。
ども。

> あるHTMLファイルのインデックス作成に
> mknmzで茶筅を使用した場合、
> 茶筅に渡す文字列が長いとsegment faultになるとのことですが、
> 文書自体の1行の文字列が長いわけでなく、
> ファイルが少々巨大なためHタグの数が非常に多く、
> mknmzが内部でH2タグをひとつにマージした文章をCHSENに渡す際に
> エラッてるようなのですが、
> これを回避したいのですが、どうすればよいでしょうか?
> KAKASIではなく、茶筅を使う必要があるので、なんとかしたいのです。
chasen のソースのlib/chalib.h の
#define CHA_INPUT_SIZE      8192
を大きくすればよいと思います。ただし、根本的な解決ではありません。
大きくしたサイズを越えればまた同じ事ですし。
僕はあきらめてkakasi を使っています。

chasen のPerl モジュールを使っていますが、
chasen でおちるとmknmz もおちますね。困ったものです。
cron などで最初の頃はちゃんとインデックスの自動作成できたのに
データが増えた時に、いつのまにかインデックスの自動作成が
できなくなったって事になりかねません。
せめてchasen がエラーメッセージとかはくだけにして
mknmz がおちないようになればいいのですが。
落ちるのがわかっているのですから、
バッファを可変にして欲しいとまではいいませんが、
CHA_INPUT_SIZE を見てエラーを出すとかして欲しいですね。

========================
横井
yokoi@xxxxxxxxx
========================