Namazu-win32-users-ja(旧)


[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]

Re: PDFとMS-Officeアプリでの著者の扱いについて



辻田 です。

citation from "[namazu-win32-users-ja] PDFとMS-Officeアプリでの著者の扱いについて"
 written by tsujita@xxxxxxxxxxxxxxxxxx
 on Tue, 20 Jan 2004 20:31:52 +0900 (JST) 

> 検索の方法としては +from:foo で可能であるところまではわかりましたが、
> 実際に検索してみると、かならずしも「プロパティ」の「作成者」がヒットす
> るわけではないことがわかりました。

わからないなりに自分で Filter を Perl script を眺めてみました。
更新者があれば更新者を著者として、更新者がいない場合にのみ作成者が著者
となるような処理なんですね。

私の望む運用では、作成者も更新者も拾えた方がいいと思って該当部分を書き
換えてみました。
Perl script を書くのはほとんど初めてといっていいので、人の目にさらすよ
うなものではありませんが、「ここはこう書いた方がいい」というアドバイス
がいただけるかもしれないと淡い期待をして引用します。

     my $msofficelastauther = $cfile->BuiltInDocumentProperties('Last Author')->{Value};
     my $msofficeauther = $cfile->BuiltInDocumentProperties('Author')->{Value};
     $msofficelastauther = "N/A" unless (defined $msofficelastauther);
     $msofficelastauther = "N/A" if $msofficelastauther eq "";
     $msofficeauther = "N/A" unless (defined $msofficeauther);
     $msofficeauther = "N/A" if $msofficeauther eq "";
     my $author = join(":", "First", $msofficeauther, "Last", $msofficelastauther);
     $fields->{'author'} = codeconv::shiftjis_to_eucjp($author)
	if (defined $author);

PDF の方はあいかわらず著者を検索で拾うことができずにいます。
おかしいのは namazu で検索すると Title の末尾の文字が化けてしまうこと
です。コマンドラインから pdfinfo foo.pdf をしたときには正常に表示され
ているので PDFファイル自体がおかしいわけではないようです。

何か情報がありましたら、よろしくお願いします。

--------------------------------------
 Tsujita Shigeki aka SigZ
 Official: tsujita@xxxxxxxxxxxxxxxxxx
 Private : tsujita@xxxxxxxxxxxxxxxx
--------------------------------------