Namazu-devel-ja(旧)


[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]

Re: Do NOT use system()



馬場@宇宙研PLAINセンター です。

 From: SATOH Fumiyasu <fumiya@xxxxxxxxxxx>
 Subject: [namazu-devel-ja] Do NOT use system() (Re: namazu/filter committed by baba)
 Date: Thu, 25 Jul 2002 01:30:34 +0900

 > 以前にも懸案として挙げましたが、system(), `` がシェルを呼び出して
 > しまう問題は、代わりに IPC::Run を利用すれば回避できるかもしれないです。

深く考えないコードを投げてしまって、どうもご迷惑おかけしてます。

system() をやめ fork() と exec() を使うのが安全であるということで、
Perlクックブックのレシピ19.6「シェルエスケープなしでコマンドを実行
する」などを見ながら適用しようかとおもったのですが、少し調べてみた
ところ、IPC::Open3 を使うと簡潔でシェルを呼び出さないコードが書け
そう(に僕には見えた)ので、これを使った pdf.pl を作ってみました。実
験コードを何度も何度も commit するのはちょっとアレなので、ちょっと
見ていただけるとありがたいです。
# ほんとはこういうときのための CVS のはずだが... X-(

・Vine2.5, perl-5.6.1, namazu-current and 2.0.10, xpdf-0.90
・Vine2.5, perl-5.6.1, namazu-current and 2.0.11pre1, xpdf-1.01
・Windows98SE, ActivePerl-5.6.1.633-MSWin32-x86, namazu-2.0.10, xpdf-1.01 

のいずれでも動作することは確認しました。

IPC::Open3 のサンプルコードは perlfaq8 の最新のものに含まれていま
した。全文は http://cvs.perl.org/cvsweb/perlfaq/perlfaq8.pod です。

# IPC::Run は非標準なモジュールであることを考えると、やっぱり
# 標準でインストールされているモジュールを利用する方がよいかと。
--
馬場  肇 ( Hajime BABA )                  E-mail: baba@xxxxxxxxxxxxxxxx
宇宙科学研究所 宇宙科学企画情報解析センター
--
#
# -*- Perl -*-
# $Id: pdf.pl,v 1.28 2002/07/29 08:17:36 knok Exp $
# Copyright (C) 1997-2000 Satoru Takabayashi ,
#               1999 NOKUBI Takatsugu All rights reserved.
#     This is free software with ABSOLUTELY NO WARRANTY.
#
#  This program is free software; you can redistribute it and/or modify
#  it under the terms of the GNU General Public License as published by
#  the Free Software Foundation; either versions 2, or (at your option)
#  any later version.
# 
#  This program is distributed in the hope that it will be useful
#  but WITHOUT ANY WARRANTY; without even the implied warranty of
#  MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE.  See the
#  GNU General Public License for more details.
#
#  You should have received a copy of the GNU General Public License
#  along with this program; if not, write to the Free Software
#  Foundation, Inc., 59 Temple Place - Suite 330, Boston, MA
#  02111-1307, USA
#
#  This file must be encoded in EUC-JP encoding
#

package pdf;
use strict;
require 'util.pl';
require 'gfilter.pl';

# See sample codes in the latest perlfaq8 (- System Interaction) in detail.
# or http://cvs.perl.org/cvsweb/perlfaq/perlfaq8.pod
use IPC::Open3;
use Symbol qw(gensym);

my $pdfconvpath = undef;
my $pdfinfopath = undef;
my $pdfconvver = 0;
my @pdfconvopts = ();

sub mediatype() {
    return ('application/pdf');
}

sub status() {
    $pdfconvpath = util::checkcmd('pdftotext');
    $pdfinfopath = util::checkcmd('pdfinfo');
    if (defined $pdfconvpath) {
	# To capture a program's STDERR, but discard it's STDOUT:
	open(NULL, ">", util::devnull);
	my $pid = open3(gensym, ">&NULL", \*PH, $pdfconvpath, "-v");
	while (<PH>) {
	    if (/^pdftotext\s+version\s+([0-9]+\.[0-9]+)/) {
		$pdfconvver = $1;
	    }
	}
	waitpid($pid, 0);

	if (util::islang("ja")) {
	    if ($pdfconvver >= 1.00) {
		@pdfconvopts = ('-q', '-raw', '-enc', 'EUC-JP');
	    } else {
		@pdfconvopts = ('-q', '-raw', '-eucjp');
	    }
	}
	return 'yes';
    }
    return 'no';
}

sub recursive() {
    return 0;
}

sub pre_codeconv() {
    return 0;
}

sub post_codeconv () {
    return 1;
}

sub add_magic ($) {
    return;
}

sub filter ($$$$$) {
    my ($orig_cfile, $cont, $weighted_str, $headings, $fields)
	= @_;
    my $cfile = defined $orig_cfile ? $$orig_cfile : '';

    my $tmpfile = util::tmpnam('NMZ.pdf');
    my $tmpfile2 = util::tmpnam('NMZ.pdf2');

    my $fh = util::efopen("> $tmpfile");
    print $fh $$cont;
    undef $fh;

    util::vprint("Processing pdf file ... (using  '$pdfconvpath')\n");

    # To discard both of it's STDOUT and STDERR:
    open(NULL, ">", util::devnull);
    my $pid = open3(gensym, ">&NULL", ">&NULL", $pdfconvpath, @pdfconvopts, $tmpfile, $tmpfile2);
    waitpid($pid, 0);

    unless (-e $tmpfile2) {
	unlink $tmpfile;
	unlink $tmpfile2;
	return 'Unable to convert pdf file (maybe copying protection)';
    }

    $fh = util::efopen("< $tmpfile2");
    $$cont = util::readfile($fh);
    undef $fh;
    unlink $tmpfile2;

    gfilter::line_adjust_filter($cont);
    gfilter::line_adjust_filter($weighted_str);
    gfilter::white_space_adjust_filter($cont);
    $fields->{'title'} = gfilter::filename_to_title($cfile, $weighted_str)
	unless $fields->{'title'};
    gfilter::show_filter_debug_info($cont, $weighted_str,
				    $fields, $headings);

    if (defined $pdfinfopath) {
	# To capture a program's STDOUT, but discard it's STDERR:
	open(NULL, ">", util::devnull);
	my $pid = open3(gensym, \*PH, ">&NULL", $pdfinfopath, $tmpfile);
	while (<PH>) {
	    if (/Title:\s+(.*)/) { # or /Subject: (.*)/
		$fields->{'title'} = $1;
	    }
	    if (/Author:\s+(.*)/) {
		$fields->{'author'} = $1;
	    }
	}
	waitpid($pid, 0);
    }

    unlink $tmpfile;

    return undef;
}

1;