Namazu-devel-ja(旧)


[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]

Re: Office系フィルタでwvSummary を利用してみては? (Re:macbinary.pl)



寺西です。

Yukio USUDA wrote:
> 
> --charsetはOS付属のiconvに依存しているので心配だというような話を
> namazu-devel-ja 03236 でされていましたが大丈夫ですか。

状況は変わっていません。sjis をサポートしていない iconv を使って
wvWare を作成していた場合、文字化けします。
# 開発版だし、word7 だけならいいかなと考えてのことです。

元記事は --charset=eucjJP で lv を省略できるって話でしたが、
とりあえず utf-8 出力なら OS 付属の iconv でも支障がでることが
少ないだろう。
リスク(?)のある --charset を使うのは word7 形式だけにしておけば、
word7 のファイルが文字化けを起こしても、より多く存在するであろう
word8 のファイルは化けることなく使えるので、ちょっとだけ
安心かな。と、考えています。

# というのも word8 が文字化け起こすと、質問メールがたくさん
# 来そうに思えるので。

もっとも、GNU iconv を使った wvWare を使うことというのを
FAQ に書いて、世の中に浸透させておくことはやっておいた
方が良いでしょう。

ところで、solaris 2.6 付属の wvWare + iconv で utf-8 が
ダメな例が namazu-users-ja#03230 にありましたね。
これを見る限り、wvWare + GNU iconv が現状でも必須になっている
のかなという気にもなってきました。
(なら、--charset=eucJP を使うのはアリですね。)

 > 日本語版 word7 形式を処理するには wvWare 0.7 以上が必須

日本語版 word7 形式を処理するには wvWare 0.7 以上 + GNU iconv が
必須になります。に修正しておきます。

> > ちなみに JSRV_SummaryInformation を一太郎フィルタでは使っている
> > ようですが、SummaryInfomation に入っている情報とは異なるので
> > しょうか?
...
> サイズ的にはJSRV_SummaryInformationのほうが大きく情報量が多かっ
> たため(日本語のタイトルがたくさん入っています)データの意味を
> 推測しやすかったのだと思います。

なるほど。理解いたしました。
-- 
=====================================================================
寺西 忠勝(TADAMASA TERANISHI)  yw3t-trns@xxxxxxxxxxxxxxx
http://www.asahi-net.or.jp/~yw3t-trns/index.htm
Key fingerprint =  474E 4D93 8E97 11F6 662D  8A42 17F5 52F4 10E7 D14E