Namazu-users-ja(旧)

[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]

Re: Unicode(UTF-8) 文書とUnicode文字検索

From: Tadamasa Teranishi <yw3t-trns@xxxxxxxxxxxxxxx>
Date: Sun, 23 May 2004 14:35:01 +0900
X-ml-name: namazu-users-ja
X-mail-count: 03886
References: <20040523130923.028D.MLC08520@nifty.com>

寺西です。

MLC08520@xxxxxxxxx wrote:
> 
> UTF-8文書とUnicode文字の検索について教えてほしいことがあります。

正式には対応していません。

> Namazu-2.0.13では、Unicode(UTF-8)で書かれた日本語文書のうち、

nkf 2.0.4 以降を使えば、UTF-8 で書かれた文書であっても、インデックス
は作れます。ただし、インデックスの中身は EUC-JP なので、EUC-JP に
含まれない文字は、ここで消えてしまいます。

> ・Shift-JISやEUCにはないUnicode文字を検索することができますか？

できません。内部処理は EUC-JP となっているため、EUC-JP にない文字
は検索できません。

> 私がやりたいのは前者で、イメージ的にはGoogleのようなイメージを想定してい
> ます。Googleと同じようにしようと思い、NMZ*.jaテンプレートをUnicode(UTF-8)

Google と同じというのが、どういう意味なのか説明が不十分ですが、
何にしても EUC-JP にはないUnicode文字を検索することはできません。

> で保存し、Unicode(UTF-8)で書いた文書のインデックスを作成して検索すると、
> 検索結果のウェブページはUTF-8で出力されましたが、検索結果のあたりだけが
> 文字化けしてしまいました。

結果の出力に関しては Windows 版では Shift_JIS、UNIX 版では EUC-JP に
事実上限定されており、UTF-8 で出力することはできません。(日本語の場合)

また、検索文字列も UTF-8 で入力することはできません。

このうち、インデックスを UTF-8 で作成、結果を UTF-8 で出力、検索文字列
を UTF-8 で入力する機能に関しては、開発版(utf8ブランチ)で開発をすす
めています。(ちょっと停滞していますが、いずれ...。)
しかし、分かち書き処理が完全に UTF-8 に対応しないことには、
EUC-JP にはない Unicode文字を検索できるようにはならないかもしれません。
(kakasi は、UTF-8 の入力を受け付けますが、内部で EUC-JP に変換して
処理しています。まぁ、kakasi 以外を使うという手はありますが...。)
-- 
=====================================================================
寺西 忠勝(TADAMASA TERANISHI)  yw3t-trns@xxxxxxxxxxxxxxx
http://www.asahi-net.or.jp/~yw3t-trns/index.htm
Key fingerprint =  474E 4D93 8E97 11F6 662D  8A42 17F5 52F4 10E7 D14E

References:
- Unicode(UTF-8)文書とUnicode文字検索
  - From: MLC08520

Prev by Date: Unicode(UTF-8)文書とUnicode文字検索
Previous by thread: Unicode(UTF-8)文書とUnicode文字検索
Index(es):
- Date
- Thread