Namazu-users-ja(旧)


[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]

Re: ひらがなの中の " ー " の検索



お世話になっております。MLです。
野首さんアドバイスありがとうございます。

>>> 検索でひらがなの中に"ー"が入ってるものはヒットしないみたいなのですが。
>
>  これは、
>
>>> わかち書き: /home/sites/home/bin/kakasi -ieuc -oeuc -w
>
>  KAKASI を使われているせいですね。KAKASI は元々が「漢字の読みを辞書か
>ら引いて調べる」という処理を行なうためのソフトウェアだったので、ひらが
>なやカタカナは単語としての認識がきちんとなされません。
>
>  改善方法の一つとしては、KAKASI でなく ChaSen を使う方法が上げられま
>す。

野首さんのアドバイス通り chasen を導入してみました。
mknmz -c でインデックス作成をおこなったのですが、ヒットしませんでした。
それで、茶筅の辞書登録をおこなうために単語登録をしようと思ったのですが、
疑問に思ったことがあります。

新しく tsuika.dic というファイルを作成して、chasen-2.02/dic ディレクトリに
置き、

% make dic

をすると、

--------------------------------------------------------------
tsuika.dic
../mkchadic/makeint: tsuika.dic:1: 固有名詞 is not list
make[1]: *** [chadic.int] Error 1
make[1]: Leaving directory `/home/sites/home/chasen-2.02/dic'
make: *** [all] Error 2 

--------------------------------------------------------------

とエラーが出てしまいました。

tsuika.dic の中身は

(品詞 (名詞 固有名詞 組織)) ((見出し語 (きしみーる 3577)) (読み キシミール))

としております。

それで、今度は Noun.org.dic の中に上の単語を登録して

% make
% make install

をすると、エラーはでないのですが、インデックスを作成し、検索をするとヒットしません
でした。

もう一つ質問なのですが、
(品詞 (名詞 固有名詞 組織)) ((見出し語 (きしみーる 3577)) (読み キシミール))
                        ^^^^^^^
この数字は一体なんなのですか?
適当に 3577 としましたが、意味が分かりません。

質問ばかりで申し訳ありません。
御存知の方がいらっしゃいましたらアドバイス宜しくお願い致します。

namazu-2.0.4
kakasi-2.3.2

システム: linux
Namazu: 2.0.4
Perl: 5.00503
NKF: module_nkf
KAKASI: /home/sites/home/bin/kakasi -ieuc -oeuc -w
ChaSen: no -j -F '%m '
わかち書き: /home/sites/home/bin/kakasi -ieuc -oeuc -w
言語: ja_JP.SJIS
文字コード: euc
CONFDIR: /home/sites/home/etc/namazu
LIBDIR: /home/sites/home/share/namazu/pl
FILTERDIR: /home/sites/home/share/namazu/filter
TEMPLATEDIR: /home/sites/home/share/namazu/template
対応メディアタイプ:
  application/x-bzip2
  application/x-compress
  application/x-gzip
  message/news
  message/rfc822
  text/hnf
  text/html
  text/html; x-type=mhonarc
  text/plain
  text/plain; x-type=rfc
  text/x-roff