namazu-ml(avocado)


[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]

Re: Trouble of indexing on winNT



> という処理がありますが、ここは Shift_JIS を考慮して
> 
> |    if (($SYSTEM eq "WIN32") || ($SYSTEM eq "OS2")) {
> |	# Shift_JIS の漢字の 1 byte目を保護 [09/23/1998]
> |	$url =~ s|([\x00-\x7f])\\|$1/|g;          # \ を / に
> 
> にすべきです。以前のものだと \ を / に変換するときに 2 byteの文字
> を破壊してしまうことがあります。修正してみてください。これが原因か
> もしれません。
> 
以下のようにして仕事場のNT上でテストしてみました。
1.デフォルトインストール
2.mknmzの該当部分を修正して、インデックス作成
3.検索結果をみると、
(修正前) /C|/httpd/archivetest/日本語ディレクトリ/日本語ファイル名
(修正後) /C|/httpd/archivetest/日本語ディレクトリ\日本語ファイル名
と"/"が"\"となっている。
残念ながら、タイトル、抄録部分はやはり同じように文字化けしております。


> namazuに -U オプションをつけるとリンクのデコードを行わずにそのまま
> 出力されます
> たぶん NTでも互換性を重視して日本語のファイル名の扱いは Shift_JIS
> で行っている (内部処理は別かもしれないが) と思うのだけど、その辺を
> はっきりさせたいところです。調べてみてもらえませんか?
> 
namazu -U "マニュアル" > debug.txtでの、debug.txtの内容は以下の通り。

---- debug.txt begin ----------
参考ヒット数:  [ マニュアル: 2 ] 

検索式にマッチする 2 個の項目が見つかりました。

1. Namazu the full text retrieval search system (score: 4)
全文検索システム Namazu 概要 新着情報 試してみよう 検索式の例 検索の方法 
主な仕様 ダウンロード 関連リンク集 歴史 文責 Linux 関連のドキュメント
RFC ソース配布 バイナリ・パッケージ Win32用 OS/2用 Last 
/c|/usr/local/namazu/testdoc/%93%FA%96%7B%8C%EA/%8F%D0%89%EE.html
size (18,869 bytes)

2. Manual of Namazu the full text retrieval search system (score: 2)
全文検索システム Namazu Version 1.2.0.7 説明書 はじめに 目次 Namazu の
最新情報を得るには ヴァージョンの違いについて 動作環境 動作の確認されてい
る環境 インストールの方法 使い方 実際の検索に役立てる 雑多
/c|/usr/local/namazu/testdoc/%93%FA%96%7B%8C%EA/%83%7D%83j%83%85%83A%83%8B.html
size (95,967 bytes)

Current List: 1 - 2

------- debug.txt end -------------

ということで、日本語ファイル名のNTにおける扱いは、Shift-JISのようです。

> 
> また、インデックス作成の対象としたファイルの中に .txt という拡張子
> のついたものがありませんか? テキストファイルの場合は sub
> filename_to_title() というサブルーチンを通してファイル名を要約用に
> タイトルとして設定しているのですが、この処理は日本語を考慮していな
> いので問題が起こり得ます。
> 
識別子が txt のファイルはあります。
この場合、日本語タイトル部は逆に正常表示されます。抄録部分はやはり文字
化けとなります。
また、「登録論理式の一部が非表示.txt」なるけったいなファイル名は、
「示 .txt]となってしまっています。これは、\を含んでいるからではないで
しょうか?(だれがこんなファイル名をつけたのやら(^ ^;;))

> NMZ.r に登録済のファイルの一覧が載っているのでこの内容を送ってもらえると
>何かわかるかもしれません。
> 
namazu/docについては、以下のとおりです。
残念ながら、文字化けするディレクトリ、ファイルは内部文書なのであとでしかられ
そうで送れないところがつらいところですが、みたところ、同様にファイル名は
正常表示されております。「登録論理式の一部が非表示.txt」も正常表示されて
おります。
-----NMZ.r-----------
c:\usr\local\namazu\testdoc\英語\intro.html
c:\usr\local\namazu\testdoc\英語\manual.html
c:\usr\local\namazu\testdoc\日本語\よくある質問.html
c:\usr\local\namazu\testdoc\日本語\マニュアル.html
c:\usr\local\namazu\testdoc\日本語\リンクス.html
c:\usr\local\namazu\testdoc\日本語\紹介.html
c:\usr\local\namazu\testdoc\日本語\歴史.html
---------------------

> 来て欲しいような来て欲しくないような :-)。
> 
> # 私の手元の環境では日本語のファイルを扱うことがないのでいまいち状
> # 況が掴めなかったりします。
> 
お手数おかけします。
これが、NTでnamazuを利用する上での共通の問題であればまだしも、私の
ところ固有の問題であったならば、あまりお手数をわずらわすのもどうかな
という気がします。
ただ、タイトル部だけでも正常表示されれば(「示.txt」が混じっていようと)、
わたしのところでは十分実用的であり、すぐgrep系スクリプトをリプレースある
いはそれと併設してしまうでしょう。それだけに現状は残念です。

原 ( mithara@xxxxxxxxxxxxxxxx )