[Namazu-win32-users-ja 1295] Re: ExcelやPowerPointでの文書本文部の文字化け

Tadamasa Teranishi yw3t-trns @ asahi-net.or.jp
2013年 3月 6日 (水) 04:49:46 JST


寺西です。

(2013/03/05 13:04), horii wrote:
> mknmz -Cの実行結果は以下の通りです。
> 正常と思ったのですが、どこかに問題があるのでしょうか。

まず、Excel, PowerPoint の処理に使われるフィルタの確認
をしたいと思います。

> C:\>mknmz -C
...
> 未対応メディアタイプ: (11) 必要ツールが $path にないものには (-) を表示
>   application/excel: oleexcel.pl

Excel は oleexcel.pl が使われています。

>   application/msword: olemsword.pl

Word は olemsword.pl が使われています。

>   application/pdf: pdf.pl

PDF は pdf.pl が使われています。

>   application/powerpoint: olepowerpoint.pl

PowerPoint は olepowerpoint.pl が使われています。

> 以下がpltestsの結果です。
> 1 of 41 tests failed(namazu-5.pl) でした。失礼しました。
> failedの原因がわかりません。

本件と直接関係ないかもしれませんが、何かの文書ファイルの処理が
正しくできていないのかもしれません。

namazu-5.pl はともかく、他のテストが PASS しているので、
テストの Excel, PowerPoint の処理が全滅しているわけでは
なさそうに思います。

Excel, PowerPoint は、Word と同等の OLE フィルタが使われて
いることは mknmz -C で確認できました。
そのため、Excel, PowerPoint と Word の処理は大きくは変わら
ないはずなので、一部の Excel, PowerPoint の文書で文字化け
が起こっているということではないかと思われます。
フォーマットが古いとか、新しいとかの特定バージョンでの
処理で文字化けしている可能性です。

pltests を実行すると test-log ファイルが作成されますが、
ここの中身を確認することでより詳しいことがわかります。

ファイルサイズが大きいので圧縮した test-log を、可能でしたら
私個人宛にお送りいただくか、どこかのサーバに置いて
ダウンロードできるようにしていただくことは可能でしょうか?
(ファイルサイズが大きすぎるため、メーリングリストに流す
のは適当ではないためです。)

namazu-5.pl が fail しているのは、namazu-5.pl 部分の
ログを確認すればどういう状況かわかるかと思いますし、
env.pl のログは内部で使用しているモジュールのバージョン
を確認することができます。
mknmz-1 ではテスト文書のどれが処理できるのか確認でき
ますし、namazu-1 ではその検索結果を確認することができ
ます。
Excel, PowerPoint の文書のどのバージョンのものが処理
できているか、その文書の検索結果が文字化けしていないか
test-log を見れば確認できます。

そこが問題なければ、基本的な機能には問題はなく、
特定のバージョンの文書、特定のツールで作成した文書に
対する処理に何か不具合があるという可能性があります。

ご提供可能でしたら、文字化けする文書ファイルも
1つお送りいただけると解析は可能かと思います。
-- 
=====================================================================
寺西 忠勝(TADAMASA TERANISHI)  yw3t-trns @ asahi-net.or.jp
http://www.asahi-net.or.jp/~yw3t-trns/index.htm
Key fingerprint =  474E 4D93 8E97 11F6 662D  8A42 17F5 52F4 10E7 D14E


Namazu-win32-users-ja メーリングリストの案内