[Namazu-users-ja 1068] Re: gcnmz が非常な時間を要するようになった
Hideyuki SHIRAI ( 白井秀行 )
shirai @ meadowy.org
2008年 4月 7日 (月) 14:03:00 JST
白井です。
最近、shimbun で作ったファイルを mknmz したことがなかったので実
験してみました。実験対象は Mew + 朝日新聞の rss 版ですが、他のも
のでもほぼ一緒でしょう。
From: Yukio USUDA <m6694ha392t @ asahi-net.or.jp> さん曰く
Subject: [Namazu-users-ja 1067] Re: gcnmz が非常な時間を要するようになった
Message-ID: <47F998B9.2040303 @ asahi-net.or.jp>
Date: Mon, 07 Apr 2008 12:44:57 +0900
> emacs-w3m の Shimbun について少し探してみました
> http://www.bookshelf.jp/texi/emacs-w3m/emacs-w3m-ja_9.html#SEC71
> ただし、フォーマットについて正確に定義した文章やサンプルの
> ファイルは見つけることができませんでした。
> これは RFC2557 や mime 関連の RFC にきちんと準拠したフォーマット
> となっているのでしょうか。
> lisp のソースを読むかインストールして試さないとわからないのでしょうか。
最近調べていませんが、ちゃんとした mime 形式のメールになっていま
す :-)
> しかしながら、RFC822 に準拠したものであれば -h オプション
> なしのときにもtext/html ではなく message/rfc822 として
> 認識されるべきです。
> 実際には、厳密なものでなくてもヘッダの1行目が下記のような
> 文字ではじまっていれば mknmz で message/rfc822 として認識
> できるはずです。
ぼくも text/html と認識されました。これは、おそらく shimbun がで
きた時以来、ずっとそうだったのだと思います。ぼくが以前 shimbun
も含めて ~/Mail の下を mknmz していたときは --mailnews をつけて
いたので気づかなかったみたい。
# --decode-base64 が出来てから --mailnews を付けるのは止めました。
# また、それぐらいの時期から shimbun は mknmz しなくしちゃった。
## といった感じ ^^;
> Relay-Version:
> #! rnews
> N#! rnews
> Forward to
> Pipe to
> Return-Path:
> Received:
> Path:
> Xref:
> From:
> Article
この辺は shimbun を 扱う MUA に依存する部分なのですが、Mew だと
X-Shimbun-Id: asahi-html+rss:<20080407.NGY200804070001%national.rss.asahi.com>
の様なヘッダーが必ず第一行目になります。ソースを読む限りでは、野
宮さんの使っている Wanderlust も同様になります。なお、Gnus はぱっ
と見ではわかりませんでした。
というわけで、臼田さんのあげられたヘッダとは違っているので
(1) mailnews.pl の add_magic() を以下の様に書き換える
sub add_magic ($) {
my ($magic) = @_;
$magic->addMagicEntry("0\tstring\tX-Shimbun-Id:\tmessage/rfc822");
return;
}
(2) File/MMagic.pm に以下の一行を加える
# There are tests to ascmagic.c to cope with mail and news.
0 string X-Shimbun-Id: message/rfc822
とすれば、 message/rfc822 と認識されました。当然 (1) がおすすめ
でしょう。
しかし、ファイルの一行目だけで、万人が誤判定なく message/rfc822
と判定するのは不可能だと思いますので、このあたりは Namazu でサポー
トせずに『各人の運用でカバー』でよいんじゃないでしょうか?
> > で,複数ページに亘るものはインデックス化出来ないと思いこみましたのは,テス
> > トに用いたファイルが原因でした.つまり,テストに用いたファイルの Subject が
> > UTF-8 でエンコードされていた為(本文は,ISO-2022-JPです)で,Subject を
> > ISO-2022-JP のものに置き換えると,
> >
> subject 部分が RFC2047 にそった mime エンコードがされていない
> 生の UTF-8 ということであれば RFC にあっていないようにも思えます。
> ちゃんと mime エンコードされているとすれば UTF-8 と ISO-2022-JP が
> 混在しているのは特殊かもしれませんが、きちんと処理できるように
> mailnews.pl を修正する必要があるかもしれません。
ぼくもなんでそうやって混じっているのかわかりません。
実例(shimbun のパッケージ名とか記事のURIとか、そのファイルそのも
の)が欲しいです。
--
白井秀行 (mailto:shirai @ meadowy.org)
Namazu-users-ja メーリングリストの案内