Namazu-users-ja(旧)


[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]

Re: Latin-1 (ISO-8859-1) コード文書処理に関する質問です



永田@福岡大です。

古川様、

> 正しい設定をすれば mknmz では、Latin のインデックスを作れるし、
> namazu では検索もできるのだと思いますが、

ご教示有難うございました。文字コードに関しては、個人的に「OS レヴェル・
アプリケーションレヴェル等々」で色々悩んでいる状態です。

「Latin-1 に限った全文検索」に関しては「ht://Dig」の利用も考えていた
のですが、こちらは現時点(ver.3.1.5)では Namazu がやってくれるような
「正規表現検索・フレーズ検索」といった高レヴェル機能を持ち合わせて
いないようなので、是非 Namazu でいきたいと思っています。これから
いろいろ試みてみます。

# ht://Dig をちょっと試したところでは、この検索ソフトは
# ascii 7bit のテキストファイル、latin1 8bit のテキストファイル
# 文字実体参照による記法でドイツ語特殊文字を記した ascii 7bit の
# HTML ファイル、latin1 8bit で記した HTML ファイル、のいずれも
# サポートしているようでした。例えばこれらのファイル群からなる
# ディレクトリを対象にインデックスを作成させ、検索結果を表示させると
# ascii 7bit の文字実体参照表記によるドイツ語 HTML ファイルも
# 「きちんと文字実体参照されて」、つまり、ö という文字列ではなく
# 「"o」(o の上に二個の点々がついたものとみてください)で出力されて
# いる、ということです。
# もっとも、私は ht://Dig を Linux の入ったローカルのスタンドアローン
# マシンで行っており、これについている Netscape 上では(私の力では)
# どうしても Latin-1 コード文字を検索窓に直接入力することができず、
# 従って、「K"onig」(o の上に二個の点々がついたものとみてください)
# で検索してやって、ascii 7bit ドイツ語 HTML ファイルの当該場所
# つまり König と記されているところ、が実際にヒットするかどう
# かまでは、未確認ですが。

> 現状の pnamazu では、
> 日本語以外の検索は、たぶん正しくできませんので、もしこの組合せ
> をお考えならば、すみませんが、ご承知おき下さい。

私がやりたかったこと(ASCII ベースで「マークアップ」された「ドイツ語
テクスト」を「インタラクティヴ」なインターフェースを通じて「素早く検索・
マッチ行表示」する)は、古川さんがカスタマイズしてくださった pnamazu
で「ほぼ完璧」に実現されていますので、これ以上望むことは何もあり
ません。Latin-1 での検索可能性の追求は、また別の話でした。この
点に関して整理しておらず、申し訳ありませんでした。