Namazu-users-ja(旧)


[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]

Re: メール、ニュースの添付ファイルの内容もインデックス化可能ですか。



希望のものにあえばいいのですが、いつも見ているだけなのでたまには一言…

mhonarc を使い、/var/spool/mail/ 以下に入っている各maleファイルを個別に別ディレクトリにhtmlのlist にしてしまいます。
もちろん list にしたページは通常の apache 経由での表示が可能なディレクトリにしてあります。
この方法ですと、メール全般の一覧表示もでき、添付の doc, xls などはそのメールからLINKもはられとても見やすいですよ。特にフォーマットを
決める必要もなく、当方ではMLなどのメールをそのまま list にしています。
ただし、日本語名の doc,xls などは下記のようなLINKになってしまいます。
<A HREF="doc00003.doc" >=?iso-2022-jp?B?GyRCT0YpzGDAxMTA4LmRvYw==?=</A></P>
現在、修正対応まではしていません。
mail 自体のsubjectが各htmlのtitleになるのですが、この辺もちょっとおかしいので簡単にできる方法として、別スクリプトで<title> </title>
の一行を削除してしまっています。 
まぁちょろちょろと問題はありますが、そのディレクトリを mknmz で index にすれば、添付のdoc,xls も検索ができますよ。
検索結果で表示されたファイル名は、上記のように mhonarc が list を作る際の doc0003.doc などと表示されてしまいますが… 

あと、各自のディレクトリにドキュメントを保存してもらいそのディレクトリを index 対象にする方法なら、検索結果でもファイル名がしっかり
と表示されます。

各フィルタ用に、いろいろとインストールする必要がありますが、とりあえず自分でソースをいじらなくてもある程度の形にできるので簡単かと思
います。
各フィルタに関しては、下記を参照してください。
http://www.namazu.org/doc/manual.html#doc-filter
---
Makoto Ohno
mo@xxxxxxx



渡辺です。
野首様、ご回答ありがとうございました。

NOKUBI Takatsuguさんの記事
<200104280639.PAA03635@xxxxxxxxxxxxxxxxxx>から
----------------------------------------------------------------
>  テキスト部分と添付データをテキストに変換したものを単純に繋げて、それ
>をインデックス化する、というよう処理をするように filter/mailnews.pl を
>修正することは(がんばれば)可能かもしれません。

ということは、添付ファイルは通常MIMEエンコードされていますから、

・添付ファイルをデコード
・テキストの抽出
・メール(記事)本文と連結
・インデックス化

という手順になるわけですね。
それから、今考えてて分かったのですが、実装する上で更に問題があることに
気が付きました。

というのは、当然、検索できたものに関しては現物(エクセル・ワードファイ
ル)を参照したいのですが、それらが検索結果から容易にアクセスできるよう
にする方法も考えてやらないといけないわけですね。

かなりハードルが高いことに気づき、ちょっと意気消沈しそうですが、なにか
いい打開策がないか、いろいろと考えてみようと思います。ありがとうござい
ました。

--
渡辺 英史
mailto:hwatanab@xxxxxxxxxxxxxxxxx