Namazu-devel-ja(旧)


[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]

Re: filterに使用しているアプリケーション



Yukio USUDA wrote:
> 
> 臼田です。
> 
> Tadamasa Teranishi wrote:
> > > 1.wvHtml(msword.pl)
> > >  msword.plは日本語文書についてはword8形式以降のみ対応として
> > >  制限していますが、最近のwvHtml(Ver 0.7.3で確認)では特に指定
> > 言われて気づきましたけど、これって昔からでしたっけ?
> > 昔は word7 形式も変換できませんでしたっけ?
> > (UTF-8 は無理にしても、SJIS で出力したものを変換していたような
> > 気がしましたが、記憶違いかな。)
> >
> > >  ただし、word7形式のものを変換するとtitle部分のみが文字化け
> > >  するのでwvHtmlの変換にもまだ少し問題があるようです。
> >
> > word7 の場合、SJIS 出力できませんか? (確かめずに聞いていますが。)
> wvHtmlはいつごろからかiconvを要求するようになっており
> エンコード指定をして出力できますね
> wvHtml --charset=eucJP word6.doc  word6euc.html
> としてあげればlvを通す必要がないです。
> 
> で、word8のファイルは全てUTF-8で出力できるのですが
> word7のものは
> <title>
> Namazu ???e?X?g
> </title>
> というようにtitle部分だけ化けます。utf-8,sjis,eucJPいずれで出力して
> も本文は大丈夫ですがtitle部分のみ化けます。
> title部分はsjisのうち最上位ビットがあるものが破壊("?"に置き換え)され
> た残骸のように思われます。
> 
> > http://www.namazu.org/ml/namazu-users-ja/msg02088.html
> のころの0.6.7ではタイトルの抽出ができなかったが
> 0.7.3ではタイトルの抽出ができるようになった(ただしエンコードに難あり)
> ということですね。
> 
> ということでこれは現状のままにしておこうと思います。
> 
> > > 2.dvi2tty(dvi.pl)
> > >  dvi.plからは"J"オプションを付けて呼び出していますが
> > ...
> > >  同名の別コマンド?なのかどうかわかりませんが、動作が異なる
> > >  のでどこかで吸収してあげるのがよいのかなと思います
> >
> > 記憶が確かではありませんが、LaTex には NTT 版と ASCII 版があり、
> > コマンドのオプションもいろいろ違ったような気がします。
> >
> > 私が学生のころ使っていたものは jdvi2tty と頭に 'j' が付いていました
> > しね。全バージョン対応はかなり大変かと。
> >
> > 結構複雑で面倒だと思いますが、吸収できるようなら吸収してください。
> FreeBSDのpackageにはjdvi2ttyというものもあり同時にインストール
> していました。
> dvi2ttyがそのまま2バイト文字を扱えたのかと思っていたのですが
> シンボリックリンクがされていたjdvi2ttyを使っていただけのようで
> す。
> FreeBSDのpackageにあったdvi2ttyでは"J"オプションは無く、2バイト
> 文字も扱えないようです。
> 
> jdvi2ttyがあったらそれを優先して使うようにしておくとエラーの出る
> 可能性が低くなるかもしれないです。
> 
> でもTexを使う人なら気づいて自分で直しそうなので現状のままにして
> おいてもよさそうな気もします。
> 
> > > 3.ps2text,ps2ascii(postscript.pl)
> > >  manual.htmlに入手先が書かれていないので詳細がわかりませんで
> > >  した。
> > 梶浦氏作のps2text のURLは、
> > http://softpark.jplaza.com/cgi-bin/DL1.cgi/ps2text
> > からダウンロードできるようです。
> 確認いたしました。入手先URLは
> doc/ja/manual.htmlに反映すべきですね。
> 
> > ps2ascii は、ghostscript に入っていたのではないかと思います。
> > ghostscript も、フリー版とアラジン版に分かれてしまったので、
> > どこまで共通なのか分かりませんが...。
> FreeBSDのpackageではGNU版が使われているようなのですが
> ps2asciiはついていないようです。
> ps2ascii単体での導入はむずかしそうですね。

ghostscript と一緒に使うもののようですが、
もしかすると、ghostscript には含まれていなかったかもしれません。

http://www.research.compaq.com/SRC/virtualpaper/pstotext.html

からダウンロードできるようです。

> FreeBSDのpackageにはpstotextというものがあり
> 代替品として使えそうなのですが、
> tests/data/en/postscript.psを変換したら"full-text"の"-"がなぜ
> か文字化けをしました。
> どうもうまくいかないです。
> 
> 臼田幸生


-- 
=====================================================================
寺西 忠勝(TADAMASA TERANISHI)  yw3t-trns@xxxxxxxxxxxxxxx
http://www.asahi-net.or.jp/~yw3t-trns/index.htm
Key fingerprint =  474E 4D93 8E97 11F6 662D  8A42 17F5 52F4 10E7 D14E