[Namazu-win32-users-ja 147] 導入したばかりで不明な点(3点)

naya SNA02388 @ nifty.com
2004年 12月 20日 (月) 19:37:16 JST


はじめまして、nayaと申します。長文、失礼いたします。


〔環境〕
OS WindowsXP Professional SP2
Server: IIS 5.1
namazu v2.0.14
perl v5.8.4
kakasi v2.8.4
(先週木曜日の時点で最新版と思わしきものをすべてインストールしました)
その他、Acrobat 6.0 Professional、Office2003など。

〔背景情報〕

(1) LAN内の共有ファイルサーバー(全員がドライブレターに【Y:】を割り当
てている)にたまったWord,Excel,Powerpoint,PDF,HTML,TEXTなどのファイル
が、40GBを突破し、試行錯誤を経て、なんとかnamazuを導入してみました。


(2) 下記サイトなどを参考にIISを設定し、
http://www2.mountain.jp/tech/2000/no1/

…最初のインデックス作成に20時間くらいかかりましたが、次のバッチファ
イル+タスクスケジューラで深夜にインデックスの更新もうまくいっている
ようです。

perl C:\namazu\bin\mknmz.bat -a -U -O C:\namazu\var\namazu\index Y:\
1>C:\temp\namazu.log 2>C:\temp\namazu_err.log

(3) C:\Inetpub\wwwroot\index.htm(namazuの検索窓があるファイル)には、
LAN内別のPCから http://computername/ とブラウザに入力すると、
index.htmが現れるようです。

前置きが長くなりましたが、質問は、3つあります。



[1] 上記 http://computername/index.htm を開くと、
表示がおかしいですが、何が誤っていますでしょうか。


| 現在、 0 の文書がインデックス化され、 0 個のキーワードが登録されています。 
| インデックスの最終更新日: date 

となっていますが、検索すると

| Namazu による全文検索システム
| 現在、 16,347 の文書がインデックス化され、 1,551,143 個のキーワードが登録されています。 
| インデックスの最終更新日: 2004-12-20 

と、'正しい' 数値が表示されます。

http://computername/index.htmにアクセスした時点で正しい数値を表示した
いのですが…


[2] 検索後の画面でハイパーリンクになっている題名とURIのハイパーリンク
を、わたしは設定ミスしているようですが、どこで設定したらいいのか
ちょっと検討つきません。

題名のハイパーリンク、URIのハイパーリンク共にソースが

<a href="/Y|/temp/doc/・・・・・・

となってしまっており、クリックしてもリンク切れです。
リンクにマウスを乗せると、IEのステータスバーには

http://levo-60/Y|/temp/doc/・・・・・・

と表示されています。
ここは単に「Y:/temp/doc/・・・・・・」となればうまくいくように思いま
すが、どこを設定したらよいのでしょうか。


[3]PDFが検索できない

3〜4年くらい前に別の環境でnamazu導入の手伝いをしたことがありました。
(当時、Word、Excel、PDFなどのファイル検索に対応したばかりだったよう
に記憶しています)

そのとき、PDFフィルタ、Wordフィルタなどを別途入手しなければならなかっ
たように記憶していますが、現在はデフォルトで検索対象になるんでしょう
か?

というのは、docやxlsは、うまく検索対象になっているにもかかわらず、PDF
がまったくインデクシングできていないようです。(Word、Excel、Acrobat
共に、namazuやPerl等とインストールする前にインストール済みでした。)


前述のバッチファイルで生成された「namazu.log」によると、下記のような
記述が数え切れないほどたくさんあります。

1/32706 - /Y|/temp/doc/report.pdf 未対応の形式 (application/pdf)無視します



C:\namazu\etc\namazu\mknmzrc  は、次のようになっていますが
行頭の「#」ってコメントアウトっていうんですか?
PDFの行の#を取らなければいけない???かと思う反面、
Word, Excel, PowerPointのとこの#は取ってないのにうまくインデックス化
できてますし・・・


# $ALLOW_FILE =	".*\\.(?:$HTML_SUFFIX)|.*\\.txt" . # HTML, plain text
# 		"|.*\\.gz|.*\\.Z|.*\\.bz2" .       # Compressed files
# 		"|.*\\.pdf|.*\\.ps" . 		   # PDF, PostScript
# 		"|.*\\.tex|.*\\.dvi" .   	   # TeX, DVI
# 		"|.*\\.rpm|.*\\.deb" .   	   # RPM, DEB
# 		"|.*\\.doc|.*\\.xls|.*\\.pp[st]" . # Word, Excel, PowerPoint
# 		"|.*\\.j[sabf]w|.*\\.jtd" .        # Ichitaro 4, 5, 6, 7, 8
# 		"|.*\\.sx[widc]" .                 # OpenOffice Writer,Calc,Impress,Draw
# 		"|.*\\.rtf" .                      # Rich Text Format
# 		"|.*\\.hdml" .			   # HDML
# 		"|.*\\.mp3" .			   # MP3 
# 		"|\\d+|[-\\w]+\\.[1-9n]";          # Mail/News, man

以上、大変長くなって恐縮ですが、情報の不足などありましたら
ご指摘ください。
お心当たりの点がありましたらご教示いただけますと幸いです。

よろしくお願い致します。


--
naya,
SNA02388 @ nifty.com




Namazu-win32-users-ja メーリングリストの案内