namazu-ml(ring)


[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]

pdftotext (Re: namazu 1.3.0.8 patch for mknmz)



Satoru Takabayashi <satoru-t@xxxxxxxxxxxxxxxxxx> wrote:

>>#そういえば xpdf が 0.90 になって -eucjp で出力できるように
>>#なっていました。 :-)
>
>あ、本当ですね。さっそく <http://www.foolabs.com/xpdf/> から
>取ってきて試しました。
>
>対象ファイルとして「プレゼン道入門改定第2.2版」(これは面白い)
><http://nova.planet.sci.kobe-u.ac.jp/~matsuda/review/presen2.PDF>
>を pdftotext -eucjp でテキストに変換したところ、一部、文字化
>けしました。
(snip)
>と単純に変換をかけて解決しました。後から作者に連絡しておきま
>す。

直してもらいました。メイル末尾のパッチをあてると解決します。
pdftotext を使えば

  % pdftotext foo.pdf - | less

のようにして日本語の pdf文書が読めます。フィルタとして使える
ので mknmz から呼び出すのは簡単ですね。


># Decryption patches for xpdf 0.80 が 0.90 には当たらなくて
># 悲しい…。

0.90用のパッチを用意してくれました。
<http://www.fefe.de/xpdf-0.90-fefe-diff2.gz>

-- Satoru Takabayashi

diff -c -r xpdf.orig/TextOutputDev.cc xpdf/TextOutputDev.cc
*** xpdf.orig/TextOutputDev.cc	Tue Aug  3 13:37:46 1999
--- xpdf/TextOutputDev.cc	Thu Aug 12 16:22:15 1999
***************
*** 101,107 ****
  
  // CID 0 .. 96
  static Gushort japan12Map[96] = {
!   0x2120, 0x2120, 0x212a, 0x2149, 0x2174, 0x2170, 0x2173, 0x2175, // 00 .. 07
    0x2147, 0x214a, 0x214b, 0x2176, 0x215c, 0x2124, 0x213e, 0x2123, // 08 .. 0f
    0x213f, 0x2330, 0x2331, 0x2332, 0x2333, 0x2334, 0x2335, 0x2336, // 10 .. 17
    0x2337, 0x2338, 0x2339, 0x2127, 0x2128, 0x2163, 0x2161, 0x2164, // 18 .. 1f
--- 101,107 ----
  
  // CID 0 .. 96
  static Gushort japan12Map[96] = {
!   0x2121, 0x2121, 0x212a, 0x2149, 0x2174, 0x2170, 0x2173, 0x2175, // 00 .. 07
    0x2147, 0x214a, 0x214b, 0x2176, 0x215c, 0x2124, 0x213e, 0x2123, // 08 .. 0f
    0x213f, 0x2330, 0x2331, 0x2332, 0x2333, 0x2334, 0x2335, 0x2336, // 10 .. 17
    0x2337, 0x2338, 0x2339, 0x2127, 0x2128, 0x2163, 0x2161, 0x2164, // 18 .. 1f
diff -c -r xpdf.orig/XOutputDev.cc xpdf/XOutputDev.cc
*** xpdf.orig/XOutputDev.cc	Tue Aug  3 13:37:46 1999
--- xpdf/XOutputDev.cc	Thu Aug 12 16:22:08 1999
***************
*** 153,159 ****
  
  // CID 0 .. 96
  static Gushort japan12Map[96] = {
!   0x2120, 0x2120, 0x212a, 0x2149, 0x2174, 0x2170, 0x2173, 0x2175, // 00 .. 07
    0x2147, 0x214a, 0x214b, 0x2176, 0x215c, 0x2124, 0x213e, 0x2123, // 08 .. 0f
    0x213f, 0x2330, 0x2331, 0x2332, 0x2333, 0x2334, 0x2335, 0x2336, // 10 .. 17
    0x2337, 0x2338, 0x2339, 0x2127, 0x2128, 0x2163, 0x2161, 0x2164, // 18 .. 1f
--- 153,159 ----
  
  // CID 0 .. 96
  static Gushort japan12Map[96] = {
!   0x2121, 0x2121, 0x212a, 0x2149, 0x2174, 0x2170, 0x2173, 0x2175, // 00 .. 07
    0x2147, 0x214a, 0x214b, 0x2176, 0x215c, 0x2124, 0x213e, 0x2123, // 08 .. 0f
    0x213f, 0x2330, 0x2331, 0x2332, 0x2333, 0x2334, 0x2335, 0x2336, // 10 .. 17
    0x2337, 0x2338, 0x2339, 0x2127, 0x2128, 0x2163, 0x2161, 0x2164, // 18 .. 1f