[Namazu-users-ja 1073] Re: gcnmz が非常な時間を要するようになった

Hideyuki SHIRAI ( 白井秀行 ) shirai @ meadowy.org
2008年 4月 7日 (月) 16:53:03 JST


白井です。

From: 野宮 賢 / NOMIYA Masaru <nomiya @ galaxy.dti.ne.jp> さん曰く
Subject: [Namazu-users-ja 1070] Re: gcnmz が非常な時間を要するようになった
Message-ID: <87wsna6uq6.wl%nomiya @ galaxy.dti.ne.jp>
Date: Mon, 07 Apr 2008 15:32:17 +0900

> パッケージは,sb-itmedia.el で,今観ましたところ,
> 
>   http://www.itmedia.co.jp/news/articles/0804/04/news064.html
> 
> の記事見出しが,
> 
> Subject: =?UTF-8?B?44.....
> 
> とUTF-8エンコードになっています.って,使い方がまずいのかなぁ〜.

せっかくだから、符号化された subject: 全部見せてくださいよぉ〜。

Subject: 「機器が違うだけで感動が違う」―― “マニア禁制” オーディオイベント第4弾

ぼくの環境での Mew
Subject: =?ISO-2022-JP?B?GyRCIVY1ITRvJCwwYyQmJEAkMSRHNDZGMCQsMGMkJiFXGyhC?=
 =?ISO-2022-JP?B?GyRCIT0hPRsoQiAbJEIhSCVeJUslIjZYQCkhSRsoQiAbJEIlKiE8GyhC?=
 =?ISO-2022-JP?B?GyRCJUclIyUqJSQlWSVzJUhCaBsoQjQbJEJDRhsoQg==?=

ぼくの環境での wl (ただしちゃんと設定していないので無理やり)
Subject: =?ISO-2022-JP?B?GyRCIVY1ITRvJCwwYyQmJEAkMSRHNDZGMCQsMGMkJiFXGyhC?=
 =?ISO-2022-JP?B?GyRCIT0hPRsoQiAbJEIhSCVeJUslIjZYQCkhSRsoQiAbJEIlKiE8GyhC?=
 =?ISO-2022-JP?B?GyRCJUclIyUqJSQlWSVzJUhCaBsoQjQbJEJDRhsoQg==?=

ですが、Emacs の設定によっては、"―"  が jisx0208 ではなくて、
iso8859-7 とか mule-unicode とか gb2312, ksc5601 に扱われる可能
性がありますね。“, ”もヤバいかな?そうすると、Header が UTF-8
で符号化されることがあると思います。

ちなみに、
「機器が違うだけで感動が違う」―― “マニア禁制” オーディオイベント第4弾
を utf-8 で符号化すると以下の様になります。(ちょっと横幅が短いけど)

Subject: =?utf-8?B?44CM5qmf5Zmo44GM6YGV44GG44Gg44GR44Gn?=
 =?utf-8?B?5oSf5YuV44GM6YGV44GG44CN4oCV4oCVIOKAnA==?=
 =?utf-8?B?44Oe44OL44Ki56aB5Yi24oCdIOOCquODvA==?=
 =?utf-8?B?44OH44Kj44Kq44Kk44OZ44Oz44OI56ysNOW8vg==?=

# どっちにしろ、ここまでは Namazu と関係ない話です。すいません。

さて、実験で野宮さんがあげられた URI を Mew + shimbun で取り込ん
で

/home/shirai/Mail/shimbun/asahi/243 <= subject は iso-2022-jp のまま
/home/shirai/Mail/shimbun/asahi/247 <= subject を utf-8 に変えた

というファイルを対象に index を作ってみました。mailnews を変更し
て message/rfc822 になるようにしてあります。

% mknmz --decode-base64 --no-encode-uri --indexing-lang=ja \
  --output-dir=/tmp/work/index /home/shirai/Mail/shimbun/asahi/

検索対象のファイルを調べています...
2個のファイルがインデックス作成の対象として見つかりました
1/2 - /home/shirai/Mail/shimbun/asahi/243 [message/rfc822]
2/2 - /home/shirai/Mail/shimbun/asahi/247 [message/rfc822]
インデックスを書き出しています...

[基本]
日付:                Mon Apr  7 16:46:41 2008
追加された文書の数:  2
サイズ (bytes):      17,640
合計の文書数:        2
追加キーワード数:    606
合計キーワード数:    606
わかち書き:          module_mecab -Owakati -b 8192
経過時間 (秒):       2
ファイル/秒:         1.00
システム:            solaris
Perl:                5.008008
Namazu:              2.0.18

Namazu は 2.0.18 です。subject と body に対して、検索をかけてみ
ると、以下の様な差が出ました。

% namazu --list "+subject:マニア" /tmp/work/index/
/home/shirai/Mail/shimbun/asahi/243
/home/shirai/Mail/shimbun/asahi/247
% namazu --list "+subject:機器" /tmp/work/index/
/home/shirai/Mail/shimbun/asahi/243
/home/shirai/Mail/shimbun/asahi/247
% namazu --list "+subject:禁制" /tmp/work/index/
/home/shirai/Mail/shimbun/asahi/243
/home/shirai/Mail/shimbun/asahi/247
% namazu --list "音質" /tmp/work/index/
/home/shirai/Mail/shimbun/asahi/243
% namazu --list "体験" /tmp/work/index/
/home/shirai/Mail/shimbun/asahi/243

From: Yukio USUDA <m6694ha392t @ asahi-net.or.jp> さん曰く
Subject: [Namazu-users-ja 1067] Re: gcnmz が非常な時間を要するようになった
Message-ID: <47F998B9.2040303 @ asahi-net.or.jp>
Date: Mon, 07 Apr 2008 12:44:57 +0900

> ちゃんと mime エンコードされているとすれば UTF-8 と ISO-2022-JP が
> 混在しているのは特殊かもしれませんが、きちんと処理できるように
> mailnews.pl を修正する必要があるかもしれません。

というわけで、この問題はあるようです。とりあえず、243, 247 のファ
イルを付けておきますが、--debug 付きで mknmz すると、247 の body
は

// -- わかち書きされた内容 --
// <html>
// <head>
// <base href="http://www.itmedia.co.jp/news/articles/0804/04/news064.html">
// </head>
// <body>
// <h5> $b!v5!4o$,0c$&$@$1$g46f0$,0c$&!w!=!= (b ipod $b$j$i$g2;3z$rd0$$$f$$$k<c<t$k%*!<%g%#%*%7%9%f%`$g9b2;<a$j2;$r3z$7$s$g$b$i$& (b $b!h%^%k%"6x@)!i (b $b%$%y%s%h$nbh (b4 $bcf$,3+$+$l$k!# (b</h5>
// <!--body-->
// <p> $b!! (bcd $b$d%l%3!<%i!" (bipod $b$j$i$kf~$c$?<j;}$a$n3z6j$r%*!<%g%#%*%7%9%f%`$g:f @ 8$7!"2;<a$n0c$$$rbn83$7$f$b$i$& (b $b!h%*!<%g%#%*%^%k%"6x@)!i (b $b$nl5na%$%y%s%h!v (bmy-musicstyle vol.4 $b!w$, (b 5 $b7n (b3 $bf|!"el5~!&7chf<w$n!v (bspazio1 $b!w$g3+$+$l$k!# (b</p>
...

と出てきます。

-- 
白井秀行 (mailto:shirai @ meadowy.org)
-------------- next part --------------
テキスト形式以外の添付ファイルを保管しました...
ファイル名: 243.gz
型:         application/octet-stream
サイズ:     5201 バイト
説明:       無し
URL:        http://www.namazu.org/pipermail/namazu-users-ja/attachments/20080407/887e548a/243.obj
-------------- next part --------------
テキスト形式以外の添付ファイルを保管しました...
ファイル名: 247.gz
型:         application/octet-stream
サイズ:     5197 バイト
説明:       無し
URL:        http://www.namazu.org/pipermail/namazu-users-ja/attachments/20080407/887e548a/247.obj


Namazu-users-ja メーリングリストの案内