Namazu-users-ja(旧)


[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]

Re: Word 文書だけ検索できません



北川です。

> 岡埜です
> 
> wvは使っていませんがmsword.plを覗くと
> 途中でutf8からeucに変換しているらしきところがあるので
> この点は問題にはならないと思います。
> wv-0.7.0が使えるかどうかは知りません。

どうもありがとうございます。
これは知っております。
実は、

wvHtml filename1 fileneme2
とすると本文がUTF-8にエンコードされてHTML文で出力されます。
一方、
wvHtml charset=cp932 filename1 fileneme2
とすると本文がシフトJISにエンコードされ、
wvHtml charset=euc-jp filename1 fileneme2
とすると本文がEUCにエンコードされて出力されます。

ところが、文字コードが良く分からないのですが、いずれも、例えば、
<div name="hA" align="left"
というように、スタイルを表現する部分はWORDの内容そのままが記述され、
文字コードが変換されていないのです。分かりやすいのが、WORD6やWORD95
の文章で、これらはこの部分がシフトJISで記述されています。つまり、
<div name="標準" align="left"
という風にです。
これが、影響していないかということが知りたかったのです。
少なくとも、変換文はNetscapeでは読めることは事実です。従って、インデ
ックス化までの過程で何かが起こっていると考えてます。

時間があまり取れないのですぐには検証できませんが、msword.plを変更して
、一度、WORD6やWORD95のファイルをシフトJISで出力させて調べてみるつも
りです。

結果が出ましたら、報告します。