namazu-dev(ring)


[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]

Re: load_document() in mknmz



<199908290501.OAA09830@xxxxxxxxxxxxxx>の記事において
satoru-t@xxxxxxxxxxxxxxxxxxさんは書きました。

>> mknmz の load_cocument() の中では util::readfile() でファイ
>> ルを読み込んでからファイルの識別を行っていますが、この方法で
>> は pdftotext やmswordview を使ったフィルタ処理において、本来
>> は必要のない (作らなくてもいい)一時ファイルを作成してしまい
>> ます。なんとかならないものでしょうか? > 野首さん

  これなんですが、以下の理由でこういう実装にしています。

1. mswordview, pdftotextは入力ファイルの指定に`-'が使えない
2. 非ファイルなデータに対応できるようにしておきたい

  2への対処として、load_document()内でデータの中身を用意し、filter処理
には中身のみを扱うような実装にしようと考えました。
  load_document()で非ファイルなデータの中身を一時ファイルに書き出して
filter処理はファイルを扱う、という実装も考えられるのですが、こちらのほ
うが処理コストが高そうです。

  mswordviewやpdftotextがstdinを扱えるようにするのが一番良いような気が
します。

# pdftotextは一度そういうパッチを作ろうと思ったのですが、ぱっと見ちょっ
# と面倒そうだったのでやめました。
-- 
野首 貴嗣
E-mail: knok@xxxxxxxxxxxxx (private)
        nokubi@xxxxxxxxx (official)