[Namazu-users-ja 1153] Re: mknmzにてインデックス作成で日本語ファイル文字化け

Tadamasa Teranishi yw3t-trns @ asahi-net.or.jp
2009年 8月 20日 (木) 01:45:25 JST


寺西です。

taka wrote:
> 
> mknmzコマンドでインディクスを作成しようとした際、日本語ファイル名が正し
> く表記
> されないため、検索してもヒットしないという状態が続いています。

日本語ファイル名と、検索してもヒットしないという状態は問題として
別のような気はします。

> ■基本情報
> namazu 2.0.19
> kakasi 2.3.4
> nkf 2.0.7

ご使用の OS は何でしょう。
 
> echo $LANG
> en_US.UTF-8,ja_JP.UTF-8

*.UTF-8 には対応していません。UNIX で日本語なら EUC-JP 系の値を
設定しましょう。
また、カンマを区切って複数指定することはできません。
 
> echo $LANGUAGE
> ja:euc_JP
> 
> echo $LC_ALL
> ja:euc_JP

どちらもコロンが含まれますが、そのような指定には対応していません。
あまり見たことがありませんが、それは正しい値でしょうか?

$ locale -a
で出力される文字列に、そのような文字列は含まれるのでしょうか?

> ■mknmz -Cの出力結果
...
> NKF: /usr/bin/nkf

Perl モジュールを使った方が高速ですよ。

> KAKASI: /usr/local/bin/kakasi -ija -oja

これも Perl モジュールの方が高速で良いですが、それ以前に引数が
無茶苦茶です。

デフォルトの引数は -ieuc -oeuc -w だと思いますが、書き換えては
いけません。
何故書き換えたのでしょう。

> application/ichitaro6: taro56.pl
> ※以下省略

省略しないで書きましょう。重要な情報が省かれてしまっています。


> ■インディクス作成
> mknmz -O /usr/local/var/namazu/index /home/taka/testtest [/etc @ 23:32]
                                                           ^^^^^^^^^^^^
これは何でしょうか? --------------------------------------------^

以下、mknmz のメッセージ通りですが

> Looking for indexing files...
> 5 files are found to be indexed.
> 1/5 -
> /root/%82%B3%82%DB%8F%95%83X%83C%83b%83%60%89%5E%97p%83h%83L%83%85%83%81%83%93%83g.doc
> Unsupported media type (application/msword) skipped.

Word をサポートしていないので処理がスキップされているだけです。

Word の処理がしたいのなら、フィルタに必要なツールのインストール
が必要です。

http://www.namazu.org/doc/manual.html#doc-filter

をご覧ください。

> 1/4 - /root/%83X%83L%83%83%83%930001.pdf is larger than your setup
> before filtered, skipped: conf::FILE_SIZE_MAX (2000000) < 5156999

ファイルサイズが大きすぎて処理がスキップされているだけです。

> 1/3 - /root/%8B%CE%96%B1%95%5C%81i%94%D1%96%EC%97l%81j.xls Unsupported
> media type (application/excel) skipped.
> 1/2 - /root/%8C%F0%92%CA%94%EF%90%B8%8EZ%8F%91.xls Unsupported media
> type (application/excel) skipped.
> 1/1 - /root/%94%D1%96%EC%8D%EC%8B%C6%95%F1%8D%90%8F%91NEC.xls
> Unsupported media type (application/excel) skipped.

Excel をサポートしていないので処理がスキップされているだけです。
Word と同様です。

mknmz -C の結果に

> Unsupported media types: (12) marked with minus (-) probably missing
> application in your $path.
> - application/excel: excel.pl

とあるように exce.pl が無効になっており、メディアタイプが
application/excel (つまり Excel) の処理ができません。

mknmz -C の結果が省略されているので何ですが、Word の方も同様の情報が
出力されているはずです。

/home/taka/testtest の 5 つのファイルを処理しようとしていますが、
5 つとも処理がスキップされていますので、インデックスにこれらの
ファイルは反映されません。
当然、検索して見つかるはずがありません。
-- 
=====================================================================
寺西 忠勝(TADAMASA TERANISHI)  yw3t-trns @ asahi-net.or.jp
http://www.asahi-net.or.jp/~yw3t-trns/index.htm
Key fingerprint =  474E 4D93 8E97 11F6 662D  8A42 17F5 52F4 10E7 D14E



Namazu-users-ja メーリングリストの案内