Namazu-devel-ja(旧)


[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]

Re: MKNMZ_SEGMENT (Re: NMZ_MESSAGEandNMZ_CTYPE)



<200107181412.f6IEC4w09171@xxxxxxxxxxxxxxxxxxxxxxxxxxx>の記事において
taca@xxxxxxxxxxxxxxxxxxxxxxさんは書きました。

>> >   それ以外にも、一つのファイルに複数の言語で書かれた文章が入っているよ
>> > うな場合において、それを適切に処理する、ということも考えています。これ
>> > はさすがに今すぐどうすればよいかを思いつけません。
>> これはたいへん野心的ですね。(良い、意味でですよ。)

  Omega Project というもっと野心的な Project に inspire されてます ^^; 
彼らは言語的処理を typeset の level でまで行なわなければならないので、
もっと大変そうです。

>> >   Unicode Version 3 はこの辺を考慮したものらしいので、その枠組とあわせ
>> > て考えてゆけば、将来実現可能かもしれないとは思っています。
>> うーん、そうなのかなぁ?  多言語処理ですぐに頭に浮かぶのはmuleあたり
>> ですね。

  いかんせん Unicode の概要しか聞いていないので誤解があるかもしれませ
んが(しかもメモがちゃんととれていない...)、

* encoding の段階で言語の種別が判別できるらしい
* 処理のレベルが段階的にわかれていて、最も高度なレベルにおいては、単語
  を区切る処理や読みに応じた sort などの処理ができることが要求される

  というような話を伺いました。前者がうまく機能しているのなら、活路は開
けそうです。
-- 
野首 貴嗣
E-mail: knok@xxxxxxxxxxxxx
	knok@xxxxxxxxxx / knok@xxxxxxxxxx