namazu-ml(avocado)


[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]

Re: chasen (Re: Distributed Namazu)



清水@住友林業です。

# とりあえずの第一報。

Koji Kishi <kis@xxxxxxxxxxxxxxxxx> さんは書きました ;

> > というわけで、chasen が core dump する対象文書の URL を教えていた
> > だければ、debug option だらけの OS/2 port ベータ版でトレースして
> > みます。
> 
> 	http://www.isoc.org/postel/condolences.shtml
> 	http://www.isoc-ny.org/about.html

えー、まず、OS/2 では、前者はどうやっても core を吐きませんでした。

で、後者は、-j オプションを付けると chasen が core を吐きますが、
-j オプションを付けなければ、まともに終わります。

で、-j オプションを付けたままでも、core は吐くものの、標準出力には
読み込んだファイルに対して、最後までそれなりの出力がされています。

これをファイルに出力すると、原文では 0x0aで区切られた100行程度が、
1行に連結された行が出現します。(日本語の句読点は含まれない)

たぶん、この行でバッファが溢れたのではあるまいか、と現象から当たり
を付けているのですが、現在、本業の方が突然、火を吹きつつあるので、
第二報はしばらくお待ちくださいませ。 m(__)m

# ちょっと、今、ソースを追いかける時間と気力が出てこない...

ところで。

上記の二つとも、日本語コードらしきものは含まれていないので、そもそも
chasen で -j をつけても、「、」「。」が検出されないので無意味だと思
います。

ところが、両者ともに EUC と誤認されそうな文字列があります。しかし、
日本語 EUC ではないので、これが「悪さ」をしているような感じもするの
ですが、この手の文字列が比較的多く含まれる(数行にわたって続く)、
前者(http://www.isoc.org/postel/condolences.shtml)は OS/2 版 chasen 
では core を吐かないので、どうにも困った困った、です。


end
--
  住友林業株式会社  情報システム部   清水 和佳
 
  TEL: +81-3-5322-6672  FAX: +81-3-5322-6658  Niftyserve: XLW01034
  e-mail: <kshimz@xxxxxxxxx>