[Namazu-devel-ja 156] utf8index-branch へ HEAD の変更を反映しました

Yukio USUDA m6694ha392t @ asahi-net.or.jp
2004年 9月 13日 (月) 00:47:36 JST


臼田です

utf8index ブランチと HEAD で大分違いが出ていたので 2004-05-24 から 
2004-09-12 の間に HEAD にされていた変更を utf8index ブランチにも反映しました。


また、utf8index ブランチで chasen の utf8 辞書を使用したインデックス作成
も試してみました。

Perl5.6.1, NKF2.0.4, utf8 辞書使用の Chasen と Text::Chasen
で make check は ALL 54 tests passed になりました。


以下は、Chasen を utf8 辞書で使用した際の覚書です。

辞書の utf8 化は
http://chasen.aist-nara.ac.jp/hiki/ChaSen/?FAQ
に方法が書かれていたので

$ mkdir ipadic-utf8
$ for f in ipadic-2.6.3/*.cha; do lv -Iej -Ou8 $f > ipadic-utf8/$f; done
$ for f in ipadic-2.6.3/*.dic; do lv -Iej -Ou8 $f > ipadic-utf8/$f; done
として辞書を utf8 に変換し、 ipadic-utf8/ipadic-2.6.3 ディレクトリで

$ `chasen-config --mkchadic`/makemat -i w
$ `chasen-config --mkchadic`/makeda -i w chadic *.dic
として chasen 辞書を作成しました

実行途中に
/usr/local/libexec/chasen/makeda: Symbol.dic:28-251: premature end of file or  string
となって Symbol.dic で引っかかったのでこれだけリネームしておきやり直しました。
(これは記号ばかりの辞書なのでなくてもとりあえずは問題にならないようです)

元からあった chasen の euc-jp 辞書 を移動させて utf8 辞書をコピー
# mkdir /usr/local/lib/chasen/dic/ipadic/euc-jp   
# mv  /usr/local/lib/chasen/dic/ipadic/* /usr/local/lib/chasen/dic/ipadic/euc-jp/
# mkdir /usr/local/lib/chasen/dic/ipadic/utf-8
# cp *.cha /usr/local/lib/chasen/dic/ipadic/utf-8/
# cp chadic.* /usr/local/lib/chasen/dic/ipadic/utf-8/

chasenrc を utf8 に変換して使用する辞書のディレクトリ名を編集
# cp /usr/local/etc/chasenrc /usr/local/etc/chasenrc.org
# lv -Iej -Ou8 chasenrc.org > chasenrc
chasenrc を開いて
 (GRAMMAR /usr/local/lib/chasen/dic/ipadic)を
 (GRAMMAR /usr/local/lib/chasen/dic/ipadic/utf-8)に修正

臼田幸生




Namazu-devel-ja メーリングリストの案内