[Namazu-users-ja 1159] Re: mknmzにてインデックス作成で日本語ファイル文字化け

taka qqkt429d @ citrus.ocn.ne.jp
2009年 8月 24日 (月) 21:55:54 JST


関係各位

ご連絡遅くなり大変申し訳ありません。

メールについては、プレーンテキストで送付いたします。

設定を変更し、Webでアクセスしたところ
検索はできました。
しかし、下記のような表示になりました。

ファイル名が文字化けしました。

1. *サーバ構築闖・txt </root/%83T%81%5B%83o%8D%5C%92z%8E%E8%8F%87.txt>* 
(スコア: 2)
    *著者*: /不明/ 
    *日付*: /Thu, 26 Jun 2008 11:23:58 +0900/ 
    ■Packetix VPN Serverインストール手順(yum) ※CentOS 5.1 最小構成 必要
    パッケージインストール -- # cd /usr/src ・gcc関連(コマンドが長いので
    エスケープをつかって複数行にしてあります。 機能的には一行 
    /root/%83T%81%5B%83o%8D%5C%92z%8E%E8%8F%87.txt (25,589 bytes)


対応方法ご教示お願いいたします。

■mknmz -Cの結果
エクセルファイルなどを検索できるようモジュールインストールしました。
mknmz -C [~@21:12]
ニノ、゚ケ・タタ゚ト・ユ・。・、・: /・sr/local/etc/namazu/mknmzrc
・キ・ケ・ニ・: 瀝inux
Namazu: 2.0.19
Perl: 5.008008
File-MMagic: 1.27
NKF: /usr/bin/nkf
KAKASI: /usr/local/bin/kakasi -ieuc -oeuc
テ聿・: no
マツノロノ: o
、・ォ、チスュ: /usr/local/bin/kakasi -ieuc -oeuc
・皈テ・サ。シ・ク、ホクタク: ・a_JP.eucjp
クタク: ・a_JP.eucjp
ハクサ妺ウ。シ・ノ: euc
CONFDIR: /usr/local/etc/namazu
LIBDIR: /usr/local/share/namazu/pl
FILTERDIR: /usr/local/share/namazu/filter
TEMPLATEDIR: /usr/local/share/namazu/template
ツミア・皈ヌ・」・「・ソ・、・ラ: (39)
フ、ツミア・皈ヌ・」・「・ソ・、・ラ: (9) ノャヘラ・ト。シ・・ャ $path 、ヒ、ハ、、、筅ホ、ヒ、マ (-) 、スシィ
application/excel: excel.pl
application/gnumeric: gnumeric.pl
application/ichitaro5: taro56.pl
application/ichitaro6: taro56.pl
- application/ichitaro7: taro7_10.pl
application/macbinary: macbinary.pl
application/msword: msword.pl
- application/pdf: pdf.pl
- application/postscript: postscript.pl
application/powerpoint: powerpoint.pl
- application/rtf: rtf.pl
application/vnd.kde.kivio: koffice.pl
application/vnd.kde.kpresenter: koffice.pl
application/vnd.kde.kspread: koffice.pl
application/vnd.kde.kword: koffice.pl
application/vnd.oasis.opendocument.graphics: ooo.pl
application/vnd.oasis.opendocument.presentation: ooo.pl
application/vnd.oasis.opendocument.spreadsheet: ooo.pl
application/vnd.oasis.opendocument.text: ooo.pl
application/vnd.openxmlformats-officedocument.presentationml: msofficexml.pl
application/vnd.openxmlformats-officedocument.spreadsheetml: msofficexml.pl
application/vnd.openxmlformats-officedocument.wordprocessingml: 
msofficexml.pl
application/vnd.sun.xml.calc: ooo.pl
application/vnd.sun.xml.draw: ooo.pl
application/vnd.sun.xml.impress: ooo.pl
application/vnd.sun.xml.writer: ooo.pl
application/vnd.visio: visio.pl
application/x-apache-cache: apachecache.pl
application/x-bzip2: bzip2.pl
application/x-compress: compress.pl
- application/x-deb: deb.pl
- application/x-dvi: dvi.pl
application/x-gzip: gzip.pl
- application/x-js-taro: taro7_10.pl
application/x-rpm: rpm.pl
- application/x-tex: tex.pl
application/x-zip: zip.pl
- audio/mpeg: mp3.pl
message/news: mailnews.pl
message/rfc822: mailnews.pl
text/hnf: hnf.pl
text/html: html.pl
text/html; x-type=mhonarc: mhonarc.pl
text/html; x-type=pipermail: pipermail.pl
text/plain
text/plain; x-type=rfc: rfc.pl
text/x-hdml: hdml.pl
text/x-roff: man.pl

■LANGの結果
# echo $LANG [~@21:43]
ja_JP.eucjp

■LC_ALLの結果
# echo $LC_ALL [~@21:44]
ja_JP.eucjp

■LANGUAGEの結果
# echo $LANGUAGE [~@21:44]

■locale -aの結果
# locale -a [~@21:45]
C
POSIX
aa_DJ
aa_DJ.iso88591
aa_DJ.utf8
aa_ER
aa_ER.utf8
aa_ER.utf8 @ saaho
aa_ER @ saaho
aa_ET
aa_ET.utf8
af_ZA
af_ZA.iso88591
af_ZA.utf8
am_ET
am_ET.utf8
an_ES
an_ES.iso885915
an_ES.utf8
ar_AE
ar_AE.iso88596
ar_AE.utf8
ar_BH
ar_BH.iso88596
ar_BH.utf8
ar_DZ
ar_DZ.iso88596
ar_DZ.utf8
ar_EG
ar_EG.iso88596
ar_EG.utf8
ar_IN
ar_IN.utf8
ar_IQ
ar_IQ.iso88596
ar_IQ.utf8
ar_JO
ar_JO.iso88596
ar_JO.utf8
ar_KW
ar_KW.iso88596
ar_KW.utf8
ar_LB
ar_LB.iso88596
ar_LB.utf8
ar_LY
ar_LY.iso88596
ar_LY.utf8
ar_MA
ar_MA.iso88596
ar_MA.utf8
ar_OM
ar_OM.iso88596
ar_OM.utf8
ar_QA
ar_QA.iso88596
ar_QA.utf8
ar_SA
ar_SA.iso88596
ar_SA.utf8
ar_SD
ar_SD.iso88596
ar_SD.utf8
ar_SY
ar_SY.iso88596
ar_SY.utf8
ar_TN
ar_TN.iso88596
ar_TN.utf8
ar_YE
ar_YE.iso88596
ar_YE.utf8
as_IN.utf8
az_AZ.utf8
be_BY
be_BY.cp1251
be_BY.utf8
be_BY.utf8 @ latin
be_BY @ latin
bg_BG
bg_BG.cp1251
bg_BG.utf8
bn_BD
bn_BD.utf8
bn_IN
bn_IN.utf8
bokm虱
bokmal
br_FR
br_FR.iso88591
br_FR.iso885915 @ euro
br_FR.utf8
br_FR @ euro
bs_BA
bs_BA.iso88592
bs_BA.utf8
byn_ER
byn_ER.utf8
ca_AD
ca_AD.iso885915
ca_AD.utf8
ca_ES
ca_ES.iso88591
ca_ES.iso885915 @ euro
ca_ES.utf8
ca_ES @ euro
ca_FR
ca_FR.iso885915
ca_FR.utf8
ca_IT
ca_IT.iso885915
ca_IT.utf8
catalan
croatian
cs_CZ
cs_CZ.iso88592
cs_CZ.utf8
csb_PL
csb_PL.utf8
cy_GB
cy_GB.iso885914
cy_GB.utf8
czech
da_DK
da_DK.iso88591
da_DK.iso885915
da_DK.utf8
danish
dansk
de_AT
de_AT.iso88591
de_AT.iso885915 @ euro
de_AT.utf8
de_AT @ euro
de_BE
de_BE.iso88591
de_BE.iso885915 @ euro
de_BE.utf8
de_BE @ euro
de_CH
de_CH.iso88591
de_CH.utf8
de_DE
de_DE.iso88591
de_DE.iso885915 @ euro
de_DE.utf8
de_DE @ euro
de_LU
de_LU.iso88591
de_LU.iso885915 @ euro
de_LU.utf8
de_LU @ euro
deutsch
dutch
dz_BT
dz_BT.utf8
eesti
el_CY
el_CY.iso88597
el_CY.utf8
el_GR
el_GR.iso88597
el_GR.utf8
en_AU
en_AU.iso88591
en_AU.utf8
en_BW
en_BW.iso88591
en_BW.utf8
en_CA
en_CA.iso88591
en_CA.utf8
en_DK
en_DK.iso88591
en_DK.utf8
en_GB
en_GB.iso88591
en_GB.iso885915
en_GB.utf8
en_HK
en_HK.iso88591
en_HK.utf8
en_IE
en_IE.iso88591
en_IE.iso885915 @ euro
en_IE.utf8
en_IE @ euro
en_IN
en_IN.utf8
en_NZ
en_NZ.iso88591
en_NZ.utf8
en_PH
en_PH.iso88591
en_PH.utf8
en_SG
en_SG.iso88591
en_SG.utf8
en_US
en_US.iso88591
en_US.iso885915
en_US.utf8
en_ZA
en_ZA.iso88591
en_ZA.utf8
en_ZW
en_ZW.iso88591
en_ZW.utf8
es_AR
es_AR.iso88591
es_AR.utf8
es_BO
es_BO.iso88591
es_BO.utf8
es_CL
es_CL.iso88591
es_CL.utf8
es_CO
es_CO.iso88591
es_CO.utf8
es_CR
es_CR.iso88591
es_CR.utf8
es_DO
es_DO.iso88591
es_DO.utf8
es_EC
es_EC.iso88591
es_EC.utf8
es_ES
es_ES.iso88591
es_ES.iso885915 @ euro
es_ES.utf8
es_ES @ euro
es_GT
es_GT.iso88591
es_GT.utf8
es_HN
es_HN.iso88591
es_HN.utf8
es_MX
es_MX.iso88591
es_MX.utf8
es_NI
es_NI.iso88591
es_NI.utf8
es_PA
es_PA.iso88591
es_PA.utf8
es_PE
es_PE.iso88591
es_PE.utf8
es_PR
es_PR.iso88591
es_PR.utf8
es_PY
es_PY.iso88591
es_PY.utf8
es_SV
es_SV.iso88591
es_SV.utf8
es_US
es_US.iso88591
es_US.utf8
es_UY
es_UY.iso88591
es_UY.utf8
es_VE
es_VE.iso88591
es_VE.utf8
estonian
et_EE
et_EE.iso88591
et_EE.iso885915
et_EE.utf8
eu_ES
eu_ES.iso88591
eu_ES.iso885915 @ euro
eu_ES.utf8
eu_ES @ euro
fa_IR
fa_IR.utf8
fi_FI
fi_FI.iso88591
fi_FI.iso885915 @ euro
fi_FI.utf8
fi_FI @ euro
finnish
fo_FO
fo_FO.iso88591
fo_FO.utf8
fr_BE
fr_BE.iso88591
fr_BE.iso885915 @ euro
fr_BE.utf8
fr_BE @ euro
fr_CA
fr_CA.iso88591
fr_CA.utf8
fr_CH
fr_CH.iso88591
fr_CH.utf8
fr_FR
fr_FR.iso88591
fr_FR.iso885915 @ euro
fr_FR.utf8
fr_FR @ euro
fr_LU
fr_LU.iso88591
fr_LU.iso885915 @ euro
fr_LU.utf8
fr_LU @ euro
fran軋is
french
fy_NL
fy_NL.utf8
ga_IE
ga_IE.iso88591
ga_IE.iso885915 @ euro
ga_IE.utf8
ga_IE @ euro
galego
galician
gd_GB
gd_GB.iso885915
gd_GB.utf8
german
gez_ER
gez_ER.utf8
gez_ER.utf8 @ abegede
gez_ER @ abegede
gez_ET
gez_ET.utf8
gez_ET.utf8 @ abegede
gez_ET @ abegede
gl_ES
gl_ES.iso88591
gl_ES.iso885915 @ euro
gl_ES.utf8
gl_ES @ euro
greek
gu_IN
gu_IN.utf8
gv_GB
gv_GB.iso88591
gv_GB.utf8
he_IL
he_IL.iso88598
he_IL.utf8
hebrew
hi_IN
hi_IN.utf8
hr_HR
hr_HR.iso88592
hr_HR.utf8
hrvatski
hsb_DE
hsb_DE.iso88592
hsb_DE.utf8
hu_HU
hu_HU.iso88592
hu_HU.utf8
hungarian
hy_AM
hy_AM.armscii8
hy_AM.utf8
icelandic
id_ID
id_ID.iso88591
id_ID.utf8
is_IS
is_IS.iso88591
is_IS.utf8
it_CH
it_CH.iso88591
it_CH.utf8
it_IT
it_IT.iso88591
it_IT.iso885915 @ euro
it_IT.utf8
it_IT @ euro
italian
iw_IL
iw_IL.iso88598
iw_IL.utf8
ja_JP
ja_JP.eucjp
ja_JP.ujis
ja_JP.utf8
japanese
japanese.euc
ka_GE
ka_GE.georgianps
ka_GE.utf8
kk_KZ
kk_KZ.pt154
kk_KZ.utf8
kl_GL
kl_GL.iso88591
kl_GL.utf8
km_KH
km_KH.utf8
kn_IN
kn_IN.utf8
ko_KR
ko_KR.euckr
ko_KR.utf8
korean
korean.euc
ku_TR
ku_TR.iso88599
ku_TR.utf8
kw_GB
kw_GB.iso88591
kw_GB.utf8
ky_KG
ky_KG.utf8
lg_UG
lg_UG.iso885910
lg_UG.utf8
lithuanian
lo_LA
lo_LA.utf8
lt_LT
lt_LT.iso885913
lt_LT.utf8
lv_LV
lv_LV.iso885913
lv_LV.utf8
mai_IN
mai_IN.utf8
mg_MG
mg_MG.iso885915
mg_MG.utf8
mi_NZ
mi_NZ.iso885913
mi_NZ.utf8
mk_MK
mk_MK.iso88595
mk_MK.utf8
ml_IN
ml_IN.utf8
mn_MN
mn_MN.utf8
mr_IN
mr_IN.utf8
ms_MY
ms_MY.iso88591
ms_MY.utf8
mt_MT
mt_MT.iso88593
mt_MT.utf8
nb_NO
nb_NO.iso88591
nb_NO.utf8
ne_NP
ne_NP.utf8
nl_BE
nl_BE.iso88591
nl_BE.iso885915 @ euro
nl_BE.utf8
nl_BE @ euro
nl_NL
nl_NL.iso88591
nl_NL.iso885915 @ euro
nl_NL.utf8
nl_NL @ euro
nn_NO
nn_NO.iso88591
nn_NO.utf8
no_NO
no_NO.iso88591
no_NO.utf8
norwegian
nr_ZA
nr_ZA.utf8
nso_ZA
nso_ZA.utf8
nynorsk
oc_FR
oc_FR.iso88591
oc_FR.utf8
om_ET
om_ET.utf8
om_KE
om_KE.iso88591
om_KE.utf8
or_IN
or_IN.utf8
pa_IN
pa_IN.utf8
pa_PK
pa_PK.utf8
pl_PL
pl_PL.iso88592
pl_PL.utf8
polish
portuguese
pt_BR
pt_BR.iso88591
pt_BR.utf8
pt_PT
pt_PT.iso88591
pt_PT.iso885915 @ euro
pt_PT.utf8
pt_PT @ euro
ro_RO
ro_RO.iso88592
ro_RO.utf8
romanian
ru_RU
ru_RU.iso88595
ru_RU.koi8r
ru_RU.utf8
ru_UA
ru_UA.koi8u
ru_UA.utf8
russian
rw_RW
rw_RW.utf8
se_NO
se_NO.utf8
si_LK
si_LK.utf8
sid_ET
sid_ET.utf8
sk_SK
sk_SK.iso88592
sk_SK.utf8
sl_SI
sl_SI.iso88592
sl_SI.utf8
slovak
slovene
slovenian
so_DJ
so_DJ.iso88591
so_DJ.utf8
so_ET
so_ET.utf8
so_KE
so_KE.iso88591
so_KE.utf8
so_SO
so_SO.iso88591
so_SO.utf8
spanish
sq_AL
sq_AL.iso88591
sq_AL.utf8
sr_CS
sr_CS.iso88595
sr_CS.utf8
sr_ME
sr_ME.utf8
sr_RS
sr_RS.utf8
sr_RS.utf8 @ latin
sr_RS @ latin
ss_ZA
ss_ZA.utf8
st_ZA
st_ZA.iso88591
st_ZA.utf8
sv_FI
sv_FI.iso88591
sv_FI.iso885915 @ euro
sv_FI.utf8
sv_FI @ euro
sv_SE
sv_SE.iso88591
sv_SE.iso885915
sv_SE.utf8
swedish
ta_IN
ta_IN.utf8
te_IN
te_IN.utf8
tg_TJ
tg_TJ.koi8t
tg_TJ.utf8
th_TH
th_TH.tis620
th_TH.utf8
thai
ti_ER
ti_ER.utf8
ti_ET
ti_ET.utf8
tig_ER
tig_ER.utf8
tl_PH
tl_PH.iso88591
tl_PH.utf8
tn_ZA
tn_ZA.utf8
tr_CY
tr_CY.iso88599
tr_CY.utf8
tr_TR
tr_TR.iso88599
tr_TR.utf8
ts_ZA
ts_ZA.utf8
tt_RU.utf8
turkish
uk_UA
uk_UA.koi8u
uk_UA.utf8
ur_PK
ur_PK.utf8
uz_UZ
uz_UZ.iso88591
uz_UZ.utf8 @ cyrillic
uz_UZ @ cyrillic
ve_ZA
ve_ZA.utf8
vi_VN
vi_VN.tcvn
vi_VN.utf8
wa_BE
wa_BE.iso88591
wa_BE.iso885915 @ euro
wa_BE.utf8
wa_BE @ euro
xh_ZA
xh_ZA.iso88591
xh_ZA.utf8
yi_US
yi_US.cp1255
yi_US.utf8
zh_CN
zh_CN.gb18030
zh_CN.gb2312
zh_CN.gbk
zh_CN.utf8
zh_HK
zh_HK.big5hkscs
zh_HK.utf8
zh_SG
zh_SG.gb2312
zh_SG.gbk
zh_SG.utf8
zh_TW
zh_TW.big5
zh_TW.euctw
zh_TW.utf8
zu_ZA
zu_ZA.iso88591
zu_ZA.utf8
ja_JP.eucjp
Tadamasa Teranishi さんは書きました:
> 寺西です。
>
> # メイルの文字コードは ISO-2022-JP (いわゆる JIS) でお願いします 
> # 不必要な全文引用をしないでください 
>
> http://www.namazu.org/ml.html#html を読み直してください。
>
>
> で、既に [Namazu-users-ja 1153] で回答済みですので、そちらを読み
> 直しましょう。
>
>
>   
>> ■locale -aの出力結果
>>     
>
> locale -a の出力結果を示せとは言ってませんよ。
> locale -a の出力結果にja:euc_JPがあるのかどうかを確認しただけです。
>
> で。
>
>   
>> locale: Cannot set LC_CTYPE to default locale: No such file or directory
>> locale: Cannot set LC_MESSAGES to default locale: No such file or directory
>> locale: Cannot set LC_COLLATE to default locale: No such file or directory
>>     
>
> とエラーメッセージが出ていますが、気になったりはしないのでしょうか?
>
> 出力のうち日本語関係と言えば
>
>   
>> ja_JP
>> ja_JP.eucjp
>> ja_JP.ujis
>> ja_JP.utf8
>> japanese
>> japanese.euc
>>     
>
> です。このうち EUC-JP 関係のものというと ja_JP.eucjp がありますので、
> これを環境変数 LANG, LANGUAGE, LC_ALL に設定すれば良いということです。
>
> # ja:euc_JP ってどこから出てきたんだか?
>  
>   
>> ■KAKASI: /usr/local/bin/kakasi -ija -oja
>>
>> kakasiの引数を変更したのは、jaにしたほうがいいのかとおもったからでした
>> ご指摘ありがとうございます。変更いたします。
>>     
>
> 思いつきでデタラメに設定したんでは、正しい動作をするわけが
> ありません。きちんとお調べになるべきです。
>
> ところで、[Namazu-users-ja 1153] で指摘した内容が反映されていま
> せんが、何故でしょう。
> 再度、[Namazu-users-ja 1153] を読み直しましょう。
>
>   
>> ■mknmzの出力結果を省略した理由
>> メール本文が大量の文字数になるのでは考えたためでした。改めて
>> 出力結果を載せます。
>>
>> 再度修正したので、前回のメールと出力結果と差異がございますがご了承ください。
>> perl: warning: Setting locale failed.
>> perl: warning: Please check that your locale settings:
>>     
>
> と Perl がワーニングを出しているのですから、おかしいとか思わなかった
> のでしょうか?
>
>   
>> LANGUAGE = "ja",
>> LC_ALL = "ja",
>> LANG = "en_US.UTF-8,ja_JP.UTF-8"
>>     
>
> LANG については[Namazu-users-ja 1153]で指摘済み。
>
>   
>> are supported and installed on your system.
>> perl: warning: Falling back to the standard locale ("C").
>>     
>
> 設定がデタラメなので locale には C を使うと Perl が言ってます。
>
>   
>> - application/excel: excel.pl
>>     
> ...
>   
>> - application/msword: msword.pl
>> - application/pdf: pdf.pl
>>     
>
> と、Excel と Word と PDF の全てが未サポートとなっています。
> サポートするには必要なソフトをインストールしてください。
>   



Namazu-users-ja メーリングリストの案内