[Namazu-users-ja 1073] Re: gcnmz が非常な時間を要するようになった
Hideyuki SHIRAI ( 白井秀行 )
shirai @ meadowy.org
2008年 4月 7日 (月) 16:53:03 JST
白井です。
From: 野宮 賢 / NOMIYA Masaru <nomiya @ galaxy.dti.ne.jp> さん曰く
Subject: [Namazu-users-ja 1070] Re: gcnmz が非常な時間を要するようになった
Message-ID: <87wsna6uq6.wl%nomiya @ galaxy.dti.ne.jp>
Date: Mon, 07 Apr 2008 15:32:17 +0900
> パッケージは,sb-itmedia.el で,今観ましたところ,
>
> http://www.itmedia.co.jp/news/articles/0804/04/news064.html
>
> の記事見出しが,
>
> Subject: =?UTF-8?B?44.....
>
> とUTF-8エンコードになっています.って,使い方がまずいのかなぁ〜.
せっかくだから、符号化された subject: 全部見せてくださいよぉ〜。
Subject: 「機器が違うだけで感動が違う」―― “マニア禁制” オーディオイベント第4弾
ぼくの環境での Mew
Subject: =?ISO-2022-JP?B?GyRCIVY1ITRvJCwwYyQmJEAkMSRHNDZGMCQsMGMkJiFXGyhC?=
=?ISO-2022-JP?B?GyRCIT0hPRsoQiAbJEIhSCVeJUslIjZYQCkhSRsoQiAbJEIlKiE8GyhC?=
=?ISO-2022-JP?B?GyRCJUclIyUqJSQlWSVzJUhCaBsoQjQbJEJDRhsoQg==?=
ぼくの環境での wl (ただしちゃんと設定していないので無理やり)
Subject: =?ISO-2022-JP?B?GyRCIVY1ITRvJCwwYyQmJEAkMSRHNDZGMCQsMGMkJiFXGyhC?=
=?ISO-2022-JP?B?GyRCIT0hPRsoQiAbJEIhSCVeJUslIjZYQCkhSRsoQiAbJEIlKiE8GyhC?=
=?ISO-2022-JP?B?GyRCJUclIyUqJSQlWSVzJUhCaBsoQjQbJEJDRhsoQg==?=
ですが、Emacs の設定によっては、"―" が jisx0208 ではなくて、
iso8859-7 とか mule-unicode とか gb2312, ksc5601 に扱われる可能
性がありますね。“, ”もヤバいかな?そうすると、Header が UTF-8
で符号化されることがあると思います。
ちなみに、
「機器が違うだけで感動が違う」―― “マニア禁制” オーディオイベント第4弾
を utf-8 で符号化すると以下の様になります。(ちょっと横幅が短いけど)
Subject: =?utf-8?B?44CM5qmf5Zmo44GM6YGV44GG44Gg44GR44Gn?=
=?utf-8?B?5oSf5YuV44GM6YGV44GG44CN4oCV4oCVIOKAnA==?=
=?utf-8?B?44Oe44OL44Ki56aB5Yi24oCdIOOCquODvA==?=
=?utf-8?B?44OH44Kj44Kq44Kk44OZ44Oz44OI56ysNOW8vg==?=
# どっちにしろ、ここまでは Namazu と関係ない話です。すいません。
さて、実験で野宮さんがあげられた URI を Mew + shimbun で取り込ん
で
/home/shirai/Mail/shimbun/asahi/243 <= subject は iso-2022-jp のまま
/home/shirai/Mail/shimbun/asahi/247 <= subject を utf-8 に変えた
というファイルを対象に index を作ってみました。mailnews を変更し
て message/rfc822 になるようにしてあります。
% mknmz --decode-base64 --no-encode-uri --indexing-lang=ja \
--output-dir=/tmp/work/index /home/shirai/Mail/shimbun/asahi/
検索対象のファイルを調べています...
2個のファイルがインデックス作成の対象として見つかりました
1/2 - /home/shirai/Mail/shimbun/asahi/243 [message/rfc822]
2/2 - /home/shirai/Mail/shimbun/asahi/247 [message/rfc822]
インデックスを書き出しています...
[基本]
日付: Mon Apr 7 16:46:41 2008
追加された文書の数: 2
サイズ (bytes): 17,640
合計の文書数: 2
追加キーワード数: 606
合計キーワード数: 606
わかち書き: module_mecab -Owakati -b 8192
経過時間 (秒): 2
ファイル/秒: 1.00
システム: solaris
Perl: 5.008008
Namazu: 2.0.18
Namazu は 2.0.18 です。subject と body に対して、検索をかけてみ
ると、以下の様な差が出ました。
% namazu --list "+subject:マニア" /tmp/work/index/
/home/shirai/Mail/shimbun/asahi/243
/home/shirai/Mail/shimbun/asahi/247
% namazu --list "+subject:機器" /tmp/work/index/
/home/shirai/Mail/shimbun/asahi/243
/home/shirai/Mail/shimbun/asahi/247
% namazu --list "+subject:禁制" /tmp/work/index/
/home/shirai/Mail/shimbun/asahi/243
/home/shirai/Mail/shimbun/asahi/247
% namazu --list "音質" /tmp/work/index/
/home/shirai/Mail/shimbun/asahi/243
% namazu --list "体験" /tmp/work/index/
/home/shirai/Mail/shimbun/asahi/243
From: Yukio USUDA <m6694ha392t @ asahi-net.or.jp> さん曰く
Subject: [Namazu-users-ja 1067] Re: gcnmz が非常な時間を要するようになった
Message-ID: <47F998B9.2040303 @ asahi-net.or.jp>
Date: Mon, 07 Apr 2008 12:44:57 +0900
> ちゃんと mime エンコードされているとすれば UTF-8 と ISO-2022-JP が
> 混在しているのは特殊かもしれませんが、きちんと処理できるように
> mailnews.pl を修正する必要があるかもしれません。
というわけで、この問題はあるようです。とりあえず、243, 247 のファ
イルを付けておきますが、--debug 付きで mknmz すると、247 の body
は
// -- わかち書きされた内容 --
// <html>
// <head>
// <base href="http://www.itmedia.co.jp/news/articles/0804/04/news064.html">
// </head>
// <body>
// <h5> $b!v5!4o$,0c$&$@$1$g46f0$,0c$&!w!=!= (b ipod $b$j$i$g2;3z$rd0$$$f$$$k<c<t$k%*!<%g%#%*%7%9%f%`$g9b2;<a$j2;$r3z$7$s$g$b$i$& (b $b!h%^%k%"6x@)!i (b $b%$%y%s%h$nbh (b4 $bcf$,3+$+$l$k!# (b</h5>
// <!--body-->
// <p> $b!! (bcd $b$d%l%3!<%i!" (bipod $b$j$i$kf~$c$?<j;}$a$n3z6j$r%*!<%g%#%*%7%9%f%`$g:f @ 8$7!"2;<a$n0c$$$rbn83$7$f$b$i$& (b $b!h%*!<%g%#%*%^%k%"6x@)!i (b $b$nl5na%$%y%s%h!v (bmy-musicstyle vol.4 $b!w$, (b 5 $b7n (b3 $bf|!"el5~!&7chf<w$n!v (bspazio1 $b!w$g3+$+$l$k!# (b</p>
...
と出てきます。
--
白井秀行 (mailto:shirai @ meadowy.org)
-------------- next part --------------
テキスト形式以外の添付ファイルを保管しました...
ファイル名: 243.gz
型: application/octet-stream
サイズ: 5201 バイト
説明: 無し
URL: http://www.namazu.org/pipermail/namazu-users-ja/attachments/20080407/887e548a/243.obj
-------------- next part --------------
テキスト形式以外の添付ファイルを保管しました...
ファイル名: 247.gz
型: application/octet-stream
サイズ: 5197 バイト
説明: 無し
URL: http://www.namazu.org/pipermail/namazu-users-ja/attachments/20080407/887e548a/247.obj
Namazu-users-ja メーリングリストの案内