Namazu-devel-ja(旧)


[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]

pl/codeconv.pl, pl/wakati.plのバグ?



臼田です。

pl/codeconv.plのktoe()とpl/wakati.plのwakatize_japanese()に
バグらしきものを見つけました。

前者は、JIS X0201 KANA(通称半角カタカナ)の並びに
「タ゜」「ラ″」「ヲ″」といった通常なさそうなものを
渡すと全く異なる文字になってしまうというものです。
if文の判定をより丁寧にすれば直ると思いますが
通常の文章にはあまりありそうにないので
このままでもよいのかもしれません。

後者は--no-okuriganaオプションをつけたときに下記のように
pl/wakati.plのwakatize_japanese()の処理で
おくりがなだけでなく「目指し」の「目」が消えてしまうというものです。
正規表現を見てもなぜこうなるのか条件がよくわかりませんでした。
こちらは詳しい方の助けをお借りしたいです。

// -- wakatized bare content --
// 
// Namazu は 手軽 に 使え ること を 第一 に 目指し た 日本語 全文 検索 システム です 。 この ファイル は テスト 用 です 。
// test@xxxxxxxxxx
(略)
// -- わかち書きされた内容 --
//   
//  Namazu  は  手軽  に  使  ること  を  第一  に  指  た  日本語  全文  検索  システム  です  。  この  ファイル  は  テスト  用  です  。 
//  test@xxxxxxxxxx 


臼田幸生