Namazu-users-ja(旧)


[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]

Re: --media-typeオプションの指定の仕方



寺西です。

# Reply-To: は削らないで。

eehay wrote:
> 
> 少しでも、インデックス作成スピードを上げたいと思い、
> Namazuの豆知識の内容にある --media-type=mtypeオプション
> を使うことを試みようとしました。
> 対象ファイルはMS-Office文書(Word、Excel、PowerPoint)
> 、PDF文書ですが、どんな変数を入れればよいかが
> わかりませんでした。

Word なら application/msword
Excel なら application/excel
PowerPoint なら application/powerpoint
PDF なら application/pdf

になるかと思いますが、--media-type は「対象ファイルの文書形式が
あらかじめわかっている」場合に使えるものです。
様々な文書形式が混在する場合は無理ではなかったかと思います。

そのため拡張子で区別して、4回の mknmz で処理することは可能か
と思います。

--allow=".*\.doc" --media-type="application/msword"
--allow=".*\.xls" --media-type="application/excel"
--allow=".*\.ppt" --media-type="application/powerpoint"
--allow=".*\.pdf" --media-type="application/pdf"

ただし、文書形式の自動判別にかかる時間はほんのわずかかと思います
ので、4回に分けて処理する方がむしろ時間がかかるかもしれません。

また、速度を上げるという意味では、余計な文書形式の処理を省く
処理だけで良いかもしれません。

--allow=".*\.doc|.*\.xls|.*\.ppt|.*\.pdf"

として対象ファイルを Word, Excel, PowerPoint, PDF のみに限定
することができます。
余計な文書形式のファイルが多数ある場合は、余計なファイルの
処理を行わないので、少しは速度があがるかと思います。
(元々、Word, Excel, PowerPoint, PDF しかなければ、効果は
ありません。)
-- 
=====================================================================
寺西 忠勝(TADAMASA TERANISHI)  yw3t-trns@xxxxxxxxxxxxxxx
http://www.asahi-net.or.jp/~yw3t-trns/index.htm
Key fingerprint =  474E 4D93 8E97 11F6 662D  8A42 17F5 52F4 10E7 D14E