Namazu-users-ja(旧)


[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]

Re: Word ・ Excelのインデックスがうまくできない



寺西です。

zyoru@xxxxxxxxxxxxxx wrote:
> 
> > wvWare 0.7.2 というのが微妙ですが、たぶん 0.7.2 までは Namazu 2.0.12
> > はサポートしていたと思います。
> >
> > % wvWare test.doc | lv -Iu8 -Oej > word.html
> >
> > と Namazu を通さず、wvWare で処理した word.html は期待した結果
> > が得られているでしょうか。まずは、それを確認してください。
...
> wvWare,xlhtmlで処理した結果、どちらのHTMLファイルも元のWordとExcelの文書で入力
> した部分が文字化けを起こしていました(両方ともUTF-8で出力されたのと何か関係があ
> るかも知れません…)

ちなみに word.html は EUC コードになっています。
内容の確認は vi なり less なりで確認してください。
(端末は EUC が表示できる状態にしてください。)

word.html は、Webブラウザでは確認しないでください。
これは生成された html の charset が UTF-8 のままなので、lv で EUC に
変換するとつじつまがあわなくなるためです。

もし、vi なり less なりで確認した場合でも文字化けを起こしているのなら
lv が正しく utf8 -> euc の変換ができていないことになります。
この場合は、

% wvWare test.doc | nkf -W -e > word.html

で、文字化けしないかどうかを確認してください。
(nkf 2.02 は utf-8 -> euc 変換が可能)

nkf でも文字化けしているようなら、変換がおかしいのではなくて、
確認する際の端末設定のミスの可能性が高いです。

nkf は正しく EUC に変換していて、lv が変換できていないのなら、lv を
疑いましょう。
-- 
=====================================================================
寺西 忠勝(TADAMASA TERANISHI)  yw3t-trns@xxxxxxxxxxxxxxx
http://www.asahi-net.or.jp/~yw3t-trns/index.htm
Key fingerprint =  474E 4D93 8E97 11F6 662D  8A42 17F5 52F4 10E7 D14E