Namazu-win32-users-ja(旧)


[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]

Re: UFT-8 の HTML ドキュメントで文字化け



ども、佐藤です。

On Mon, 25 Dec 2000 03:43:03 +0900
Akihiro SAGAWA <sagawa@xxxxxxxxxx> wrote:

> namazuやkakasiなどは、UTF-8などのunicodeに対応していません。

対応しているものと思い込んでました(^^;


> あらかじめ、JIS X0208ベースのエンコーディング
> (EUC-jp, Shift_JIS, iso-2022-jp)に変換する必要があります。

はい、教えて頂いた tconv と自作プログラム2本で力技で変換し、
インデックスを追加しました。
やはり便利ですね>Namazu+PHP日本語マニュアル


> 塚田さんの作られた、検索ページがあります。
> 最近、http://www.php.gr.jp/が不調だったので告知が遅れていますが、
> http://www.net-newbie.com/ からたどることができます。
> # PostgreSQLとインデックスが同じですがね。

いや、それが自宅はまだ定額接続でないので電話代がかかってしまいます。
そこで手元のPHPマニュアルを検索できればと思ったしだいです。


> 文字コードの変換ツールにお困りならば、
> PHP3.0.18-18n-jaをお使いください。(笑)
> # ちょっとしたスクリプトを書く必要がありますが。
> http://www.cityfujisawa.ne.jp/~louis/apps/phpfi/win/

これは既にインストールしていますが、ただ今勉強中なのです。


> METAタグのことを考慮しなければ、
> tconv( http://www.piedey.co.jp/softs/tconv.html )や、
> lv( http://www.ff.iij4u.or.jp/~nrt/lv/ )でもOKです。

この情報は非常に助かりました。ありがとうございます。
以下のようなBATで処理で一気に変換しました。
----------------------------------------------------------------------
tconv UTF-8 EUC-JP appendixes.html > appendixes.htm
(以下、1796行続く)
----------------------------------------------------------------------

#でも、tconv.txt が X-UTF-16LE-BOM なのは驚き(^^;

佐藤 充男
satou@xxxxxxxxxxxxxx