[Namazu-users-ja 1067] Re: gcnmz が非常な時間を要するようになった

Yukio USUDA m6694ha392t @ asahi-net.or.jp
2008年 4月 7日 (月) 12:44:57 JST


臼田です

野宮 賢 / NOMIYA Masaru さんは書きました:
> ざっと調べましたところ,mhtml 形式と同じと思えます.
>   
emacs-w3m の Shimbun について少し探してみました
http://www.bookshelf.jp/texi/emacs-w3m/emacs-w3m-ja_9.html#SEC71
ただし、フォーマットについて正確に定義した文章やサンプルの
ファイルは見つけることができませんでした。
これは RFC2557 や mime 関連の RFC にきちんと準拠したフォーマット
となっているのでしょうか。
lisp のソースを読むかインストールして試さないとわからないのでしょうか。

> メール・ヘッダーは付いています.
> ファイル形式ですが,
>
>  # mknmz -EK ....
>
> として実行しますと,[text/html] と,また,
>
>  # mknmz -hEK ...
>
> として実行しますと,[message/rfc822]と認識されます.
>   
-h オプションはすべてのファイルを強制的に message/rfc822
として読み込むものなのでこのオプションをつけた際の挙動は
当然のものです。
しかしながら、RFC822 に準拠したものであれば -h オプション
なしのときにもtext/html ではなく message/rfc822 として
認識されるべきです。
実際には、厳密なものでなくてもヘッダの1行目が下記のような
文字ではじまっていれば mknmz で message/rfc822 として認識
できるはずです。

Relay-Version:
#! rnews
N#! rnews
Forward to
Pipe to
Return-Path:
Received:
Path:
Xref:
From:
Article

message/rfc822 や message/news として認識されていない
ということはヘッダの先頭がこれらと異なるのであると思われます。
スクリプトが生成したヘッダ部分にまでは著作権はないと
思いますので実例をいくつか示していただけますでしょうか。


> で,複数ページに亘るものはインデックス化出来ないと思いこみましたのは,テス
> トに用いたファイルが原因でした.つまり,テストに用いたファイルの Subject が
> UTF-8 でエンコードされていた為(本文は,ISO-2022-JPです)で,Subject を
> ISO-2022-JP のものに置き換えると,
>   
subject 部分が RFC2047 にそった mime エンコードがされていない
生の UTF-8 ということであれば RFC にあっていないようにも思えます。
ちゃんと mime エンコードされているとすれば UTF-8 と ISO-2022-JP が
混在しているのは特殊かもしれませんが、きちんと処理できるように
mailnews.pl を修正する必要があるかもしれません。

emacs-w3m の Shimbun スクリプトは対応する新聞サイトごとに何種も実装がある
ようですし、実例を何件か見て判断すべきですが、
emacs-w3m の Shimbun のファイルが RFC にそった mhtml ファイルであれば
filter/mailnews.pl を修正して対応することになるでしょう。
emacs-w3m の Shimbun が作成するファイルが独自形式であるならば、
他フォーマットと識別出来る部分を探して、filter/mailnews.pl を改造して専用の
フィルタを作成して対応するのがよいかと考えます。

臼田幸生



Namazu-users-ja メーリングリストの案内