Namazu-devel-ja(旧)


[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]

タイ語分かち書き (Re: [namazu-users-ja] はじめましてタイからの参加です。)



namazu-devel-ja に振ります。

 From: Hajime BABA <hajime.baba@xxxxxxxxx>
 Subject: [namazu-users-ja] Re: はじめましてタイからの参加です。
 Date: Wed, 15 Aug 2001 23:26:30 +0900

 > とりあえず、以下の変更を行うことで、タイ語の分かち書きをしつつイン
 > デックスを作成する(作成しているらしい)ことには成功しました。こちら
 > で実験したのは Linux 環境ですが、Windows 環境でも動くはずです。

タイ語の分かち書きについてざっと調べてみました。参考になれば。

namazu-users-ja に流したものはあくまでも実験なので、多言語化のフレー
ムワークをどうすればいいかは、安部さん他におまかせする方が確実なの
でおまかせしますが、「とにかく動けばいいか」というイイカゲンな精神
なら、cttex などを組み込むことはさほど難しくないのではないかという
気はします。



タイ語

  Thai Software
  http://thaigate.nacsis.ac.jp/files/index.html

  Thai Open Source Developer Network
  http://developer.thai.net/

  http://www.links.nectec.or.th/

などから

  CTTeX : General-Purpose Thai word segmentation program 
  ThaiTool Perl Module for Thai Word Segmentation (ttool-0.5.tar.gz)

  LibInThai
  http://developer.thai.net/libinthai/

  ss (Simple thai word Separator) 
  http://members.nbci.com/theera/ss/

  swath - Smart Word Analysis for THai
  http://www.links.nectec.or.th/

などが取ってこれます。いずれもLinux 上でもコンパイル可能。

なお、X での表示には xiterm+thai が使えます。
ftp://ftp.loxinfo.co.th/pub/unix/thai/ とかに rpm があります。同じ
ところにあるタイ語フォントを入れてやれば、なにやら表示できます(も
ちろん読めませんが)。deb もあるようです。ただ、入力方法がわかりま
せんでした。xiterm は cut&paste がうまくいかないし。Emacs の quail 
でどうこうするの?


いろいろ見た限りでは、cttex が標準的なようですが、ざっと試した範囲
では、cttex も ss も swath も(LibInThai は試してませんが)、あまり
変わらないように見えます。cttex だと、

  % cttex -w < thai.txt > thai_seg.txt

すると、単語間に <WBR> という文字列が入るので、適当にスペースにで
も置換してやればよさげ。ss なら、

  % ss thai.txt > thai_seg.txt

とするだけで分かちがきします。swath なら

  % swath -b " " < thai.txt > thai_seg.txt

とすれば良いようです。いずれもxiterm 上で分かれることは確認しまし
た。むろん「正しく」わかれているかどうかは別ですけど。いずれも速度
差はほとんどなく十分に高速です。ライセンスは、cttex と ss が GPL,
swath は freely distributable なようです。


# おまけ:ローマ字表記されたタイ語のテキストを,
# 本当のタイ語テキストに変換するプログラム rth2th
# http://www.jsdi.or.jp/~maczuka/programs/rth2th.txt
--
馬場  肇 ( Hajime BABA )                  E-mail: hajime.baba@xxxxxxxxx
国立天文台 天文学データ解析計算センター
--