Namazu-devel-ja(旧)


[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]

Re: Office系フィルタでwvSummary を利用してみては? (Re:macbinary.pl)



Tadamasa Teranishi wrote:
> ということで、wvSummary を使って title, author, keywords を
> 取り出すプログラムを書いてみました。
> HEAD 用です。(msword.pl 用ですが、excel.pl, powerpoint.pl も
> 同等の修正で対応可能です。)
> これで、filter/win32/olemsword.pl と同じように著者の情報が利用
> できます。

試してみました。
いい感じですね。
現在titleが文字化けするからという理由でサポート外となっている日本語
word7形式のファイルもwvSummaryがある場合サポート対象にしてもよいの
ではないでしょうか?

excel.pl,poweroint.plにも入れるか、util.plかgfilter.plに移して共通
に利用するのがよいですね。

excelやpowerpointをインデックスしなければいけない人はmswordの
インデックスも作る人でしょうからwvSummaryが使えるようになっている
可能性は高いだろうと思います。

> > wvSummary は libole2 の test-ole の簡易版のようなものですから、
> > Word 以外でも使えます。
> > # libole2 の Perl モジュールってないのかな。
xlhtmlやppthtmlはcoleというライブラリを使っていますね。

libole2や、coleのようなものがあるので一太郎のテキスト抽出も
Cで書いたものがあってもよいでしょうね。

> そのものではありませんが、OLE/Storage_Lite.pm が、これ相当と
> して使えるのかな。(Perl モジュールでできるなら、そちらの方が
> いいですね。)
OLEストレージをアーカイブと同じように扱ってmknmzが全部自力で
パースするという覚悟があればOLEの展開にPerlモジュールを使う
という選択も面白いですが、wvwareやxlhtmlの完成度も高いので
今のままでよいように思います。

OLE/Storage_Lite.pmはさらにIO-stringyも要求することや、
全部Perlで書かれているので(これは利用面ではありがたいのですが)
少し遅いこともあるので一太郎フィルタ以外でも使うのはどうかと思っ
ています。

臼田幸生