[Namazu-users-ja 402] Re: 橡を表示させないためには

Tadamasa Teranishi yw3t-trns @ asahi-net.or.jp
2005年 5月 25日 (水) 14:10:29 JST


寺西です。

# namazu-devel-ja に移します。

Yukio USUDA wrote:
> 
> > あらあら。いろんな項目に「橡」があるのですね。
> 
> 「やさしくPDF OCR」の体験版をダウンロードしてpdfファイルを作成してみました。
> 
> できあがったpdfファイルをエディタで開いてみると著者情報等が入っている部分が
> 下記のようになっています。
...
> '< >'で囲まれた部分は UTF16BE 文字コードでの文字情報のようです。
> ただし、頭のBOM(FEFF)の次にある '001B6A61001B' だけはUTF16BEでなく
> ASCIIコードで 'ja' を表しているようで、エスケープコード '1B' ではさんで
> UTF16BE 部分と区別しているのかと思います。
> この '6A61' を UTF16BE として読むと「橡」になってしまいます。

なるほど。

> xpdf が eucjp に変換する際にこの部分も UTF16BE 扱いしてしまっている
> ため「橡」が混ざるのでしょう。

納得ですよね。これって。普通は化けますよね。
 
> 「やさしくPDF OCR」の仕様から起きている現象のようですが、
> この言語指定部分が PDF の仕様上正しい表現であれば xpdf の処理に不具合
> があるということかと思います。

実は、tests/data/ja/acrobat[34].pdf でも pdfinfo を使って確認すると
Creator: のところで起こります。
やっぱり xpdf の処理の不具合といえばそうかもしれませんが、何だか
PDF にとってもローカルな仕様があるのが諸悪の根源な気はしますが...。
# はて、さて。

pdf.pl では、xpdfinfo の結果を実害の少ない UTF-8 で取り出して、
エスケープで囲まれた領域を切りぬいた後、EUC-JP に変換して使うと
いうのがよさそうですね。(xpdf 2.02 以降)

ついでに、PDF に含まれる Keywords も反映したいところです。
# 単語の区切りはスペースかと思っていましたが「、」で区切られることも
# あるのかなぁ。
-- 
=====================================================================
寺西 忠勝(TADAMASA TERANISHI)  yw3t-trns @ asahi-net.or.jp
http://www.asahi-net.or.jp/~yw3t-trns/index.htm
Key fingerprint =  474E 4D93 8E97 11F6 662D  8A42 17F5 52F4 10E7 D14E




Namazu-users-ja メーリングリストの案内