[Namazu-users-ja 21] Re: pnamazuを使用したgrep検索をpdfやoffice文書に対して行いたい

Dai NAKAMURA dnimail @ software.sanix.jp
2004年 7月 14日 (水) 14:33:32 JST


中村です。

早速のご回答ありがとうございます。
・・・

>あくまでも grep ですから、plain テキストじゃないと利用できない機能
>ですね。
>
そうなんです。無論テキストファイルでは、何ら問題なくgrep表示できて
おります。

>要はテキストファイルなら grep できるわけです。ならば、テキスト
>ファイルを用意してやればいいのです。
>  
>
(snip)

>で、(質はともかく)変換できます。もちろん Office でテキスト形式で
>保存するといったことを行っても良いです。
>  
>
なるほど。原文書を一旦テキストにしておくわけですね。
mknmzは、夜バッチで自動実行しています。ですのでそのバッチ中で
原文書と同一のフォルダ構成を自動的に切って回るのにちょっと工夫
が必要ですね。この部分は頑張ってみます。

>
>/org/ のインデックスを使って、検索します。すると、検索結果に grep
>の結果が含まれます。また、リンクにアクセスすると、オリジナル
>ファイルにアクセスできることでしょう。
>  
>
はい。早速やってみます

>5. 制限、その他
>
>・grep 結果の行番号はテキストに変換した際の行番号なので、それ自体に
>  意味はありません。
>
はい。平テキストでpnamazuした結果を見て行番号の件は気が付いておりました。
この点はフィルタを介した時点の平テキストでは意味が無いものと思っております。
pnamazuの出力表現を少し変えてみようかと考えております。

>・一連の変換作業を行うスクリプトは、適当に作ってください。
>・オリジナルファイルの更新頻度が多いと、インデックスの再構築が面倒
>  です。
>
はい。わかりました。

>・テキスト変換に使用しているツールによっては、質の悪いテキストを
>  出力します。(例えば、xlhtml はフッターが入っています。)
>  適当なフィルタを通す必要があるかもしれません。
>・w3m はデフォルト 10000行までしか変換できないので、注意してください。
>・当たり前ですが、無保証です。
>
現時点でもNAMAZUサーバーは稼働しておりOFFICE関連の文書フィルタはdoccat
を使用していますので大丈夫と思いますが、確認は致します。

どうも、色々とアドバイスを頂き大変ありがとうございました。






Namazu-users-ja メーリングリストの案内