[Namazu-users-ja 401] Re: 橡を表示させないためには

Yukio USUDA usuda @ hsba.go.jp
2005年 5月 25日 (水) 12:52:20 JST


臼田です

Tadamasa Teranishi wrote:
> 
> > pdfinfo -enc EUC-JP PDFファイル名 の結果になります。
> > 
> > Title:          橡アクセサリーアンジュ/有限会社自優路
> > Subject:        橡
> > Keywords:       橡販売スタッフ、卸、小売業
> > Author:         橡
> > Creator:        橡やさしくPDF OCR v.2.0 for Windows
> > Producer:       橡やさしくPDF OCR v.2.0 for Windows

略

> 
> あらあら。いろんな項目に「橡」があるのですね。


「やさしくPDF OCR」の体験版をダウンロードしてpdfファイルを作成してみました。

できあがったpdfファイルをエディタで開いてみると著者情報等が入っている部分が
下記のようになっています。

<<
/Creator <FEFF001B6A61001B308430553057304F0050004400460020004F0043005200200076002E0032002E003000200066006F0072002000570069006E0064006F00770073>
/CreationDate (D:20050525123127+09'00')
/Producer <FEFF001B6A61001B308430553057304F0050004400460020004F0043005200200076002E0032002E003000200066006F0072002000570069006E0064006F00770073>
/Title <FEFF001B6A61001B>
/Subject <FEFF001B6A61001B>
/Author <FEFF001B6A61001B>
/Keywords <FEFF001B6A61001B>
>>


'< >'で囲まれた部分は UTF16BE 文字コードでの文字情報のようです。
ただし、頭のBOM(FEFF)の次にある '001B6A61001B' だけはUTF16BEでなく
ASCIIコードで 'ja' を表しているようで、エスケープコード '1B' ではさんで
UTF16BE 部分と区別しているのかと思います。
この '6A61' を UTF16BE として読むと「橡」になってしまいます。

xpdf が eucjp に変換する際にこの部分も UTF16BE 扱いしてしまっている
ため「橡」が混ざるのでしょう。

「やさしくPDF OCR」の仕様から起きている現象のようですが、
この言語指定部分が PDF の仕様上正しい表現であれば xpdf の処理に不具合
があるということかと思います。

臼田幸生





Namazu-users-ja メーリングリストの案内