Namazu-users-ja(旧)


[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]

Re: kakasi での分かち時の長音の扱いについて教えてください



 From: 藤原  誠 / Makoto Fujiwara <makoto@xxxxx>
 Subject: [namazu-users-ja] Re: kakasi での分かち時の長音の扱いについて教えてください
 Date: Sat, 12 Jan 2002 11:17:55 +0900

 > 工藤さん>   カタカナや平仮名は分かちしないと思っていたのですが、
 > 工藤さん> 長音を含んだ平仮名が、以下の様に分かちされてしまってい
 > 工藤さん> ます。
 > 
 > これって、面白いと言っている場合ではないのですが、
 > 
 > 「jis0208 的には長音は片仮名と平仮名の区別がない」
 > のに kakasi は、そのことを考慮していない

そう言われても仕方のないところですが、意図としてはちょっと違います。

  「jis0208 的には長音は片仮名と平仮名の区別がない」ので、
  KAKASI では(決めうちで)カタカナとして扱う

という処理を行っているからです。src/kakasi.c#kakasi_do() の中です。
つまりそうなるのは現在のところは仕様ということになります。しかしな
がら、やはり直せるようなら直しておいた方が良いかとおもいます。

ちなみに、長音記号と同様に、1区の記号のうち特殊な処理をしているも
のには、「仝,々,〆」を漢字として、また「ヽ,ヾ,ゝ,ゞ」をひらがなと
して処理しています。また、5区の「ヵ,ヶ」も、カタカナではなく、漢字
として取り扱っています。


言い訳じみますが、このように乱暴に扱ったのにはそれなりの背景があり
ます。むかしむかしの話(JUMAN は知っていたがChaSenはまだなかったこ
ろ)ですが、KAKASI の「わかち書きもどき処理」をでっちあげたときには、
とりあえずひらがなは無視するという方針で臨みました。当時は、この直
し方に頭を悩ませるより、ひらがなだけからなる語で検索できるようにす
るのは後回しにしてでも他にやること、つまりとにかくなんでもいいから
動く全文検索システムを作るという目標があったので、こういう処理にし
たという経緯があります。昔話ということで勘弁してください。
--
馬場  肇 ( Hajime BABA )                  E-mail: hajime.baba@xxxxxxxxx
国立天文台 天文学データ解析計算センター
--