Namazu-devel-ja(旧)


[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]

taro7_10.pl修正します



臼田です。

Yukio USUDA wrote:
> 一太郎文書のうちまれに発生する特殊な形式(差分保
> 存形式)のものが現状のtaro7_10.plでは対応できず
> 後ろのほうの一部が抽出されません。

先日一太郎の文書ファイルを眺めていてヘッダ部がMS-Office系
ファイルと同じなのに気づきました。
一太郎7〜のファイルはOLE形式で格納されたファイルでした。

正体がわかったので文字の取りこぼしがでないようにOLEスト
レージの勉強をして(OLEストレージに関する良い解説もありま
した。http://user.cs.tu-berlin.de/~schwartz/pmh/guide.html)
自力で読み込むことにするつもりでしたがOLEストレージを扱う
既存のモジュールがあったのでテキスト部分やタイトル、著者名
の抽出にOLE::Storage_Liteを使用することにしています。

追加インストールが必要なPerlモジュールが
OLE-Storage_Lite
http://search.cpan.org/~kwitknr/OLE-Storage_Lite-0.11/
と
IO-stringy(OLE-Storage_Liteが内部で使用)
http://search.cpan.org/~eryq/IO-stringy-2.108/
の2つ増えます。

ドキュメントも直して数日中にcommitしようと思っております。

一太郎7〜の文書ファイル中には
見出し、キーワード、作成者、前回更新者、最終アクセス者、
会社名、作成日時、前回更新日時、最終アクセス日時
などの情報が入っているので
「見出し」をtitleに、「作成者」をauthorに使用するつもりです。
他に使い道のありそうなものがあれば活かそうかと思います。
ご意見をください。

臼田幸生