Namazu-users-ja(旧)


[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]

Re: Word ・ Excelのインデックスがうまくできない



臼田です

<zyoru@xxxxxxxxxxxxxx> wrote:
> mknmz -Cを実行した結果は以下の通りでした
略
> 対応メディアタイプ: 
>   application/excel
>   application/msword
>   application/powerpoint
>   application/x-gzip
>   message/news
>   message/rfc822
>   text/hnf
>   text/html
>   text/html; x-type=mhonarc
>   text/plain
>   text/plain; x-type=rfc
最初の例ではpdfが処理できていたようですが
今回の出力ではpdfの行がないのが不思議ですね

> > wvWare 0.7.2 というのが微妙ですが、たぶん 0.7.2 までは Namazu 2.0.12
> > はサポートしていたと思います。
> > 
> > % wvWare test.doc | lv -Iu8 -Oej > word.html
> > 
> > と Namazu を通さず、wvWare で処理した word.html は期待した結果
> > が得られているでしょうか。まずは、それを確認してください。
> > 
> > 同様に excel の方も以下の結果を確認してください。
> > 
> > % xlhtml -m test.xls | lv -Iu8 -Oej > excel.html
> > 
> wvWare,xlhtmlで処理した結果、どちらのHTMLファイルも元のWordとExcelの文書で入力
> した部分が文字化けを起こしていました(両方ともUTF-8で出力されたのと何か関係があ
> るかも知れません…)
文字化けしているというのはどのような状態ですか?

wvWare,xlhtmlがUTF-8で出力しているのは正常です。
lvを通すことでeucにしています。
ただし、htmlファイル内の
CONTENT="text/html; charset=UTF-8"
という指定はそのまま残るので上記の確認方法でできる
htmlファイルはWebブラウザで見ると文字化けして見えます。

文字コードをeuc指定にして表示しても読めませんか?
エディタで開いてみても読めないでしょうか?

臼田幸生