[Namazu-win32-users-ja 664] kakasiへ文字列を渡す前後で文字化けしてしまう
片岡 清市郎(kataoka seiichirou)
seiichirou_kataoka @ iscube.ihi.co.jp
2006年 6月 9日 (金) 10:09:24 JST
片岡と申します。
DocuWorks文書をテキスト化するフィルター"xdwGetText"という
フリーソフトを使用しindex化しようとするのですが、処理の途中で
文字化けしてしまい、namazuで検索に引っ掛かりません。
--debugによるログを見ると、どうもkakasiに受け渡す前後で
文字化けを起こしているように思えます。
対処方法等ご存知の方おりましたらアドバイス頂きたく、
どうぞよろしくお願い致します。
[その他の状況]
・DOSプロンプトで"xdwGetText"プログラムを使用すると、うまく
文字列に変換できる。
・通常のテキスト文書やWord、Excel文書のIndex化、及び検索は正常に
動作する。
[環境]
OS: WindowsXP Pro SP2
namazu: 2.0.12
Perl: 5.6.1
kakasi: 2.3.4
[--debugによるログ]
------------------------------------------------------------
// コード変換に NKF モジュールを用います
// わかち書きに Text::Kakasi モジュールを用います
// tmpnam: E:/KATA/nmzTmp/work2/NMZ.tmp_i.tmp
// tmpnam: E:/KATA/nmzTmp/work2/NMZ.tmp_p.tmp
(途中略)
// NMZ: E:/KATA/nmzTmp/work2/NMZ.w
// NMZ: E:/KATA/nmzTmp/work2/NMZ.wi
@@ 対象の探索を開始: Fri Jun 9 09:47:15 2006
@@ 適合: E:/KATA/JOB/ms/テストDocuWork文書.xdw
@@ 対象の探索を終了: Fri Jun 9 09:47:15 2006
@@ 対象ファイル数: 1 (走査性能: 経過秒: 1, ファイル/秒: 1.0)
@@ 潜在: 1, 不許可: 0, 拒絶: 0, 除外: 0
@@ MTIME 古すぎ: 0, MTIME 新しすぎ: 0
// tmpnam: E:/KATA/nmzTmp/work2/NMZ.field.message-id.tmp
// tmpnam: E:/KATA/nmzTmp/work2/NMZ.field.subject.tmp
// tmpnam: E:/KATA/nmzTmp/work2/NMZ.field.from.tmp
// tmpnam: E:/KATA/nmzTmp/work2/NMZ.field.date.tmp
// tmpnam: E:/KATA/nmzTmp/work2/NMZ.field.uri.tmp
// tmpnam: E:/KATA/nmzTmp/work2/NMZ.field.newsgroups.tmp
// tmpnam: E:/KATA/nmzTmp/work2/NMZ.field.to.tmp
// tmpnam: E:/KATA/nmzTmp/work2/NMZ.field.summary.tmp
// tmpnam: E:/KATA/nmzTmp/work2/NMZ.field.size.tmp
// 対象ファイル: E:/KATA/JOB/ms/テストDocuWork文書.xdw
// tmpnam: E:/KATA/nmzTmp/work2/NMZ.win32.tmp
// decide_type: name: application/docu, cont: application/octet-stream
// 検出されたタイプ: application/docu
@@ モジュール: docuworks4.pl
@@ Processing Docuworks file ...
// -- content --
// テスト文書 本日は晴天なり。 明日は雨の予報である。 明後日は曇りの予報である。 /以上
// -- weighted_str: --
// 16/16
// -- headings --
// load_document 実行後: /E|/KATA/JOB/ms/・ニ・ケ・ネDocuWorkハクス・xdw: 2584, 94, 25, application/docu
// Field: summary: テスト文書 本日は晴天なり。 明日は雨の予報である。 明後日は曇りの予報である。 /以
// Field: title: ・ニ・ケ・ネDocuWorkハクス・xdw
// Field: date: Fri, 09 Jun 2006 09:41:46
// Field: size: 2584
// Field: from: ノヤフタ
// Field: uri: /E|/KATA/JOB/ms/・ニ・ケ・ネDocuWorkハクス・xdw
// tmpnam: E:/KATA/nmzTmp/work2/NMZ.field.message-id.tmp
// tmpnam: E:/KATA/nmzTmp/work2/NMZ.field.message-id.i.tmp
(途中略)
// tmpnam: E:/KATA/nmzTmp/work2/NMZ.field.size.tmp
// tmpnam: E:/KATA/nmzTmp/work2/NMZ.field.size.i.tmp
// -- wakatized bare content --
// テベト文書 本日・ヘ・ー・vな・閨 b 明・冾 ヘ・jの・\報・ナ・・驕 b 明・纉 冾 ヘ・ワ・閧 フ・\報・ナ・・驕 b /以・・ 16/16
// 16・ニ・ケ・ネ docuwork ハクス・.xdw/16
// -- わかち書きされた内容 --
// テベト文書 本日・ヘ・ー・vな・閨 b 明・冾 ヘ・jの・\報・ナ・・驕 b 明・纉 冾 ヘ・ワ・閧 フ・\報・ナ・・驕 b /以・・ 16/16
// 16・ニ・ケ・ネ docuwork ハクス・.xdw/16
// write_index() 実行.
// Renamed: E:/KATA/nmzTmp/work2/NMZ.tmp_i.tmp, E:/KATA/nmzTmp/work2/NMZ.i.tmp
// Renamed: E:/KATA/nmzTmp/work2/NMZ.tmp_w.tmp, E:/KATA/nmzTmp/work2/NMZ.w.tmp
// write_phrase_hash() 実行.
// Renamed: E:/KATA/nmzTmp/work2/NMZ.tmp_p.tmp, E:/KATA/nmzTmp/work2/NMZ.p.tmp
// Renamed: E:/KATA/nmzTmp/work2/NMZ.tmp_pi.tmp, E:/KATA/nmzTmp/work2/NMZ.pi.tmp
// Renamed: E:/KATA/nmzTmp/work2/NMZ.t.tmp, E:/KATA/nmzTmp/work2/NMZ.t
// Renamed: E:/KATA/nmzTmp/work2/NMZ.i.tmp, E:/KATA/nmzTmp/work2/NMZ.i
// Renamed: E:/KATA/nmzTmp/work2/NMZ.ii.tmp, E:/KATA/nmzTmp/work2/NMZ.ii
// Renamed: E:/KATA/nmzTmp/work2/NMZ.w.tmp, E:/KATA/nmzTmp/work2/NMZ.w
// Renamed: E:/KATA/nmzTmp/work2/NMZ.wi.tmp, E:/KATA/nmzTmp/work2/NMZ.wi
// Renamed: E:/KATA/nmzTmp/work2/NMZ.p.tmp, E:/KATA/nmzTmp/work2/NMZ.p
// Renamed: E:/KATA/nmzTmp/work2/NMZ.pi.tmp, E:/KATA/nmzTmp/work2/NMZ.pi
// 一時ファイルを削除:
// E:/KATA/nmzTmp/work2/NMZ.flist.tmp
// E:/KATA/nmzTmp/work2/NMZ.err
// E:/KATA/nmzTmp/work2/NMZ.lock2
@@ Excel->Quit
------------------------------------------------------------
/以上
Namazu-win32-users-ja メーリングリストの案内