Namazu-users-ja(旧)


[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]

doccat を用いた一太郎ファイルの変換



 はじめまして、西山@国土環境と申します。
 現在、Linux2.4+namazu+apache+SAMBA+doccatを用いて、
WinNTサーバの共有フォルダをsmbmountして、それを検索対象
として全文検索サーバを構築しています。まぁ、なじみのある
構成かと思います。

 UNIX版のnamazuでは、一太郎ファイルの文書フィルタは、taro.pl
を用いて、そこの中でdoccat(http://www.dehenken.co.jp/products/doccat/
)を実行して、インデックスを作成しているかと思います。taro.plでは、
拡張子.jtd(一太郎8以降)のものを対象にapplication/x-js-taroとして
インデックスがうまく作成できています。

 そこで、doccatを使って、7以前のバージョンの一太郎ファイル
に関してもうまく全文検索の対象にならないかと考えました。

 ファイルを識別しているのが、MMagic.pmだったので、これを改造して、
バージョン5,6,7に対しても。application/x-js-taroとして、taro.plを
使うようにしました。また、taro.plとconf.plも変更しました。

---------- 改造部分 --------
root@search1 File]# diff MMagic.pm MMagic.pm.org
1627c1627
< >43   byte            0x15            application/x-js-taro
---
> >43   byte            0x15            application/ichitaro5
1630,1633c1630
< >43   byte            0x16            application/x-js-taro
<
< 0     string          DOC
< >43   byte            0x17            application/x-js-taro
---
> >43   byte            0x16            application/ichitaro6
[root@search1 File]#

[root@search1 pl]# diff conf.pl conf.pl.org

31,34c31,33
<               "|.*\\.pdf|.*\\.ps" .              # PDF, PostScript
<               "|.*\\.tex|.*\\.dvi" .             # TeX, DVI
<               "|.*\\.rpm|.*\\.deb" .             # RPM, DEB
<               "|.*\\.doc|.*\\.xls|.*\\.ppt" .    # Word, Excel, PowerPoint
---
>               "|.*\\.pdf" .                      # PDF
>               "|.*\\.tex" .                      # TeX
>               "|.*\\.doc|.*\\.xls" .             # Word, Excel
36,37d34
<               "|.*\\.jfw" .                  # Ichitaro 7
<               "|.*\\.jtd" .                  # Ichitaro 8,9,10
188c185

[root@search1 pl]#

[root@search1 filter]# diff taro.pl taro.pl.org
59,61d58
<     $magic->addFileExts('(?i)\\.jaw', 'application/x-js-taro');
<     $magic->addFileExts('(?i)\\.jbw', 'application/x-js-taro');
<     $magic->addFileExts('(?i)\\.jfw', 'application/x-js-taro');
[root@search1 filter]#


-----------------

 そこで、バージョン7に関しては成功したのですが、5,6のファイル
がうまくいきません。どこがうまくいかないかというと、インデックス
ファイルは正常にできていて、きちんと全文解析されており、namazuを
実行した結果もきちんとひっかかります。しかし、検索結果の表示で、
文字化けを起こしています。

 これに関してどこを修正したらよいか、情報をお持ちの方は教えて下さい。
また、これだけは情報がたりないといったことがありましたら、
ご指摘ください。

------------------------------------------------------------
国土環境株式会社         E-mail:hideyuki@xxxxxxxxxxxxxxxxx
情報システムグループ     WWW   :http://www.metocean.co.jp/
西山 英之                TEL   :045-593-7616
                         FAX   :045-593-7628