[Namazu-users-ja 1065] Re: gcnmz が非常な時間を要するようになった

野宮 賢 / NOMIYA Masaru nomiya @ galaxy.dti.ne.jp
2008年 4月 7日 (月) 01:50:39 JST


野宮です.

まとめRESで失礼します.m(_ _)m

In the Message; 

  Subject    : [Namazu-users-ja 1063] Re: gcnmz が非常な時間を要するようになった
  Message-ID : <47F8E7ED.911A5016 @ asahi-net.or.jp>
  Date & Time: Mon, 07 Apr 2008 00:10:37 +0900

[寺西さん] == Tadamasa Teranishi <yw3t-trns @ asahi-net.or.jp> has written:

寺西さん> 重要な情報が後から出てくるのはどうにかならないものかと思いますが...。

スミマセン.m(_ _)m

小生>> <html>
小生>> <body>
小生>> 本文1
小生>> </body>
小生>> </html>
小生>> 
小生>> <html>
小生>> <body>
小生>> 本文2
小生>> </body>
小生>> </html>
小生>> 
小生>> Content-Type: image/*
小生>> [...]
小生>> 
小生>> という形式のものがあるからです.

寺西さん> ならば、もう完全に独自ファイル形式なので、独自のフィルタを作るしか
寺西さん> ないでしょう。

そうなりますか
 
小生>> 全て 1ページなら -h オプションを使えるのですが.

寺西さん> それも正しい結果は得られません。無理やり過ぎます。

う〜む,出来ているように思えますが?

寺西さん> > ともあれ,Content-Type: image/* を無視するFilterが mailnews.pl にあるという
寺西さん> > ところまでは解りました.

寺西さん> だからといって何の役にも立ちませんけど。

寺西さん> 結局複数ページなので、独自フィルタを用意する他、対処しようがあり
寺西さん> ません。
寺西さん> html.pl は当然のことながら単一ページにしか対応していませんから。

いえ,html.pl でも出来ているように思えます.
ただ,条件があります.これに就いては,臼田さんへのご返事に書かせて戴きます.

In the Message; 

  Subject    : Re: [Namazu-users-ja 1062] Re: gcnmz が非常な時間を要するようになった
  Message-ID : <06928027-9176-4A33-85F9-C3D65E701836 @ asahi-net.or.jp>
  Date & Time: Mon, 7 Apr 2008 00:17:02 +0900

[臼田さん] == Yukio USUDA <m6694ha392t @ asahi-net.or.jp> has written:

臼田さん> Internet Explorer上で作成されたウェブページのアーカイブ形式のよ うにも
臼田さん> 見えますが。
臼田さん> このファイルは html ではなく mhtml ファイルなのでは ないでしょうか?

ざっと調べましたところ,mhtml 形式と同じと思えます.

臼田さん> それであれば mailnews.pl がそのまま対応していて  base64 部分も
臼田さん> インデックス時に除去できます。
臼田さん> 最初の <html> の前にもメールヘッダのようなものがついていま せんか?
臼田さん> mknmz 実行時にはどのようなファイルとして認識されていますか?

メール・ヘッダーは付いています.
ファイル形式ですが,

 # mknmz -EK ....

として実行しますと,[text/html] と,また,

 # mknmz -hEK ...

として実行しますと,[message/rfc822]と認識されます.

で,複数ページに亘るものはインデックス化出来ないと思いこみましたのは,テス
トに用いたファイルが原因でした.つまり,テストに用いたファイルの Subject が
UTF-8 でエンコードされていた為(本文は,ISO-2022-JPです)で,Subject を
ISO-2022-JP のものに置き換えると,

 # mknmz -hEK ....

で,base64部分を削除したインデックスを作成出来,検索も出来ます.

UTF-8エンコードのSubjectの状態ですと,NMZ.field.summary には文字化けしたも
のが入り,また,NMZ.w には,英数字しか入らず,namazu での使用は不可となりま
す.

これはこれで大問題ですが......

臼田さん> ファイルのフォーマットや何で作成されたファイルなのかということは
臼田さん> できるだけ具体な実例を示していただいた方が解決が早くなります。

申し訳ありません.m(_ _)m

小生が対象としていますファイル群は,emacs-w3m の shimbun backend (メール形
式でWeb上の記事を読むことの出来るツール)で取り込んだものです.対応するメー
ラーは,Emacs 上で動作するものに限られますが,広告等を目にせず,記事(写真
を含む場合もあります)だけを一つづつ読むことが出来るというもので,読み込ん
だ際,写真などの画像は,base64にエンコードされます.ですので,mhtml 形式と
同じでは?,と思っている次第です.

ご承知のように,Web 上の記事には全て著作権がありますので,現物をお示しする
わけにはゆきません.m(_ _)m

何か,そもそも namazu の対象外のファイル群のように思えてなりません.....

---
  野宮  賢             mail-to: nomiya @ galaxy.dti.ne.jp
  
    「私たちが今日直面している化学物質の危険性に関する疑問に対し、通常の
     科学的な正確さをもって答えようとすれば、たぶんさらに数十年を要するで
     あろう。」                                      -- J. V. Rodricks --


Namazu-users-ja メーリングリストの案内