Namazu-users-ja(旧)


[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]

Re: ひらがなの中の " ー " の検索



  ChaSen の install については他の方がフォロして下さっているのでおいて
おくとして...

<200012040247.AA00758@xxxxxxxxxxxxxxxxxx>の記事において
ml@xxxxxxxxxxxxxxxさんは書きました。

>> tsuika.dic の中身は
>> 
>> (品詞 (名詞 固有名詞 組織)) ((見出し語 (きしみーる 3577)) (読み キシミール))
>> 
>> としております。

  多分、

(品詞 (名詞 固有名詞 組織)) ((見出し語 (きしみーる)) (読み キシミール))

  でも良いように思います。ところで、ファイルの内容は日本語 EUC で書か
ないといけないのですが、それは大丈夫でしょうか? 最初の辞書構築失敗は、
なんとなくその辺りがあやしいような気がします。
  あとは作成された辞書をきちんと適切な位置にコピーしたかどうか、ですね。

>> もう一つ質問なのですが、
>> (品詞 (名詞 固有名詞 組織)) ((見出し語 (きしみーる 3577)) (読み キシミール))
>>                         ^^^^^^^
>> この数字は一体なんなのですか?
>> 適当に 3577 としましたが、意味が分かりません。

  これは品詞コストの値で、きちんと沢山の文章を解析させないと正当な値は
出せないです。これを省略すると 65535 が指定されたものとして扱われるの
ですが、とりあえずはそれで良いように思います。
-- 
野首 貴嗣
E-mail: knok@xxxxxxxxxxxxx