Namazu-devel-ja(旧)


[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]

Re: セクション区切りを含むMS-Word文書のインデックス作成の不具合 (namazu-bugs-ja#2683)



寺西です。

nature_photo@xxxxxxxxxxxxxx wrote:
> 
> [現象]
> MS-Word文書(*.doc)がセクション区切りを含んでいる場合、インデックス作成時に、その最初のセクション区切り以降の文書内容が無視されてしまう。

セクションに対応していなかったようです。
 
> [推測される原因]
> 
> (例)の文書をwvWareでhtmlへ変換すると後掲のようになる。
> セクション区切りが挿入されている1ページ目と2ページ目の間で
> 
> ---------------------------
> <!--Section Ends-->
> 
> <!--Section Begins--><br>
> ---------------------------
> 
> が出力される。
> 
> 一方、msword.pl164行目の
> $$cont =~ s/<!--Section Ends-->.*$//s;
> 
> により<!--Section Ends-->以下のテキストは切り詰められてしまう。
> 従って、2ページ目以降のテキストはmknmzへ渡されず、インデクシングされないことになる。

その通りです。

> [回避策]
> /usr/local/share/namazu/filterディレクトリにあるmsword.plの
> 
> 164         $$cont =~ s/<!--Section Ends-->.*$//s;
> 
> をコメントアウトし、インデックスを作成する。

これでは、<!--Sections Ends--> 以降の不要な文書を削除するという
本来の意味が失われてしまいます。

一番最後の <!--Section Ends--> 以降は削除しないといけないでしょう。
-- 
=====================================================================
寺西 忠勝(TADAMASA TERANISHI)  yw3t-trns@xxxxxxxxxxxxxxx
http://www.asahi-net.or.jp/~yw3t-trns/index.htm
Key fingerprint =  474E 4D93 8E97 11F6 662D  8A42 17F5 52F4 10E7 D14E