论坛风格切换切换到宽版
  • 5167阅读
  • 0回复

真心愿意参与简繁体汉字互转的人请进(z蓄德网) [复制链接]

上一主题 下一主题
离线日月止戈
 

只看楼主 倒序阅读 0楼 发表于: 2009-11-16
我是textpro程序中转码表的作者,本坛中知道者也不少,用过textpro转码的人更多。在看了“cnbook繁简、简繁替换表的纠错活动”(http://www.pkucn.com/viewthread.php?tid=233674&extra=page%3d2)一文与跟帖,不得已在做一点声明。我并非针对cnbook而来,是希望找到一些真心愿意参与简繁体汉字互转的同仁来共襄此举。

  简繁体汉字互转是一件十分费力之事,需要确定解决矛盾的多条原则,本质上是无法穷举,恐怕有些地方就是专家们的意见都不一致。由于多数人没有做过这个工作,就容易想当然,包括上贴的楼主。楼主并不理解cnbook中转码表的作法,从cnbook为摆脱textpro痕迹而后增的许多错误转换就可看出(跟贴中的多数错误并不存在于textpro中)。对一个程序来说,改一个转码错字并非易事。像帖子中这样加减下去只会让这个程序的转码错误越来越多!请不要奇怪或生气,我就用上帖中的修改的例子来说明:

  “回文=迴文”在颠倒字序的意义上是对的,在转“回族文字”时就是错的。所以textpro的数据中有:
  回文印=迴文印
  回文织锦=迴文織錦
  回文诗=迴文詩
  回文锦=迴文錦
  而无“回文=迴文”,即在两可的情况下只能根据使用频率择取一种了,而回文的频率远高于迴文,这就是textpro的依据。

  跟帖说“转换一篇文章可能会遇上一两个转错的字,一般也就一笑了之,随手改掉算了。不可能指望网友发现一个错字,就屁颠屁颠发一封邮件给作者汇报,发现十次就报告十次,这也不太可能啊,你说呢?”
  我要说:发现一个错字就随手改掉的办法并不适用于一个程序。一是在你发现的场合错了,不等于在其它场合这种修改就一定是对的。这也是textpro不让用户自行更改转码文件的目的;二是如果大家都只改自己的,转码程序就只有作者本人能提供他自己碰到的错误了,对于程序的整体改进就起不到任何积极作用了。所以很遗憾,为了大家的利益您最好还得报告!

  “根据google搜索结果的多少取舍”,这是一条错误的原则。在异体字上经常用错之处,搜索结果绝对是错误多于正确。这些都是经验之谈。

  “删减不必要的替换词条”,其实这就是寒兄不懂了,以前你不理解为什么要保留等号左右全等的词组,正是为了避免转错而保留的看似重复而多余的词组。就像
一干人等=一干人等
一干土匪=一干土匪
一干弟兄=一干弟兄
一干弟子=一干弟子
......
就是为了避免把“干”转错。注意这里不能简单地用“一干=一干”,否则“一干二净”就会转成“一干二淨”而不是“一乾二淨”了。同理,textpro保留了以下词组:
须发=鬚髮
必须发=必須發
须发展=須發展
须发挥=須發揮
须发放=須發放
须发现=須發現
须发生=須發生
须发觉=須發覺
须发誓=須發誓
......

  cnbook与textpro两个程序的关系,我想寒兄应该公开讲明吧。我不反对你继续修改cnbook的转码表(因为两个软件的应用场合不尽相同),但希望是越改越好,而不是越改越乱。

  楼主找的diff.xls中只有不到三千组的异体字。而《汉字大字典》单卷本后的附录中曾附上一个一万多组的异体字表,不知是不是被人挑出一些错误或是其它原因,后来再出的三卷本就取消了。我们曾组织人员用unicode字将此附录中能打出的一万多组录入了电脑,但要组成合适的分辨词组,尚是一个需要许多有志之士联系起来才能完成的艰巨任务。

  最初设计textpro的转码功能是三层:词组优先,单字次之,最后还有一个人工选择(这个功能几乎没人使用,在请人重编textpro时因故舍弃了这一层转码功能,以后因缘成熟时仍可加上)。为了词组优先,我用数月时间翻遍了常用的工具书。试验文件全为佛经,在古今冲突时以古为主。由于我没有更多工夫做此事,所以遗漏难免。既然这个软件走向社会了,我也希望借网上力量,让有志参与者一起来改进这项工作,尤其是大陆以外的参与者和国内上年纪的老人。目前可通过加入textpro的测试qq群(群号:49369241)或发email(linden@fodian.net)的办法参与。对于愿意参与修改转码者,我可公开全部数据(但仍不许用户自行更改dat文件,理由如前述)。我的初步想法是如果每个参与者能研究解决10个异体字组的问题,不用多久,textpro软件就能大大提高转码的精确率,为大众提供更好的服务。

  目前最新的v6.5测试版下载地址: http://www.fodian.net/tools/textpro6trial.rar
------------
嗯。同意linden的看法。tp本来的转码表,也就是linden的作品,应该还是不错的。我后来草率合并了其它来源的数据,反而把转码表搞乱了。

在现在的cnbook发布中,我已经删除了data目录。即默认使用windows函数转换。

我不准备再维护转换表了。一方面我不熟悉繁体字,另一方面我也没时间。这项工作应该由有繁简转换需求、熟悉繁体字,并且有时间的同志完成。

chukkok网友热心帮我校对了一份文档,我现在又说不搞了,非常抱歉!其实我后来又按照chukkok指出的问题纠正了一些错误,放在了
http://www.fmddlmyy.cn/download/data.zip

如果认为windows的默认繁简转换不能满足要求,我建议大家使用linden维护的textpro。
------------
呵呵,对于寒潭惊鹤影兄对cnbook的努力,我稍微的校对其实算不了什么的

繁体转码的问题,主要是在简体是一字,在繁体却是多字,以干,乾,幹的词库为例,我从繁体国语辞典中搜寻,然后转简体,再转繁体,cnbook,textpro都还有误处,附表。
http://140.111.34.46/newdict/dict/

linden提到先词组,后单字的转码,又能自定义是非常不错的。其实繁简差异字,参考曹世木光君的 http://www.pkucn.com/viewthread.php?tid=239097&extra=page%3d1,不过几十个,这些字的词库都从国语辞典中搜寻出来,那岂不是繁简转码精确率大大提高了?
------------
linden大叔

联系 和 关系被textpro转换为「聯係 和 關係」

很显然是不对的

「聯繫 和 關係」才是对的

汇报如上
------------
textpro程序中转码表的作者是值得敬佩的!我曾有一段时间试用tp的简繁体转码功能,tp的转换准确率给我留下了深刻印象。

后来发现两个问题,渐渐弃用tp。

一、linden自己也承认“试验文件全为佛经,在古今冲突时以古为主。”将汉字的子集限定于佛经之内,这对于我们日常使用,不免带来一些不便。有些转换,对于您转换佛经可能是合适的,但对于现代文则未必合用。一个很明显的例子:在繁体佛经中,可能极少出现“只”字,而多见“祇”,故linden的转换表就收录“祇能”、“祇要”等一系列词组。事实上,在现代繁体文章当中,多用“只能”、“只要”,而很少人会用“祇能”、“祇要”;上世纪二、三十年代的文章中,可能常用“祇”,呵呵。

其实,这恰恰也验证了linden自己的观点:“在你发现的场合错了,不等于在其它场合这种修改就一定是对的。”——在转换佛经的场合对了,不等于在其它场合就是对的。而linden以此为“textpro不让用户自行更改转码文件的目的”,这会给普通人转换普通文章带来一些不便。试想,每次转换完毕,再手动去“搜索/替换”一批“祇能→只能”、“祇要→只要”之类古色古香的词组,不会是一件多么愉快的事情。

二、两可词——类似linden提到的“回文=迴文”——在这一方面,tp并没有多少优势。我曾搜集过一大批两可词,上传到本论坛,可惜一般人是无法校对的(准确地说,是“斟选”,因为两个词都是正确的,只是适用的语境不同,那需要语言专家+统计专家来做,或者是借助高级的语义分析系统才能正确简繁转换。),原帖子我自己都找不着、也懒得找了。由于大量两可词的存在,我们对于转换表的优化显得有些苍白而无力。说得悲观一点:

近乎徒劳。
------------
大家对简繁转换都有共识,确实是非常困难的!chukkok兄的表我会检查一下并吸收合理部分的。但其中有些也是两可的,如“乾死-干死-幹死”,“干死”转为“乾死”和“幹死”均可。

我们会不断改善textpro的转码精度,但恐怕我们还无法满足不同人群的需求。

有些网友可能是基于textpro的过时版本,像tongtc不妨用最新版本转“联系和关系”,已经转为“聯繫和關係”了。“只”字也不转为“衹”了。

天兄真是又可爱又可气,费了好大力气总结的东西怎么连自己也不留一份呢?是否还能再在硬盘和本坛搜索中再找找呢?赠人玫瑰,手有余香啊^o^ 作为回报,我可以为你专门做两个dat文件如何?
------------

引用:
原帖由 linden 于 2009-5-29 22:37 发表
天兄真是又可爱又可气,费了好大力气总结的东西怎么连自己也不留一份呢?是否还能再在硬盘和本坛搜索中再找找呢?赠人玫瑰,手有余香啊^o^ 作为回报,我可以为你专门做两个dat文件如何? ...

------------
只怕是参与的人越多,错误越多。
这种事恐怕要楼主亲自动手才好,才能保证质量。简繁转换是件好辛苦的事,楼主如果能够拿下,可谓牛人了。
------------
linden大叔 新版在哪下载?
------------

引用:
原帖由 tongtc 于 2009-5-30 17:12 发表
linden大叔 新版在哪下载?

------------

我会抽点时间把没有疑问的异体字部分先做好,可惜对疑难字我不可能有多少时间来研究了。

我们是属于实用主义者,进行录校佛经、文字整理、软件编程也有十年了。有些事情就不等结论了,先做起来再说。

这两天我也看了有几位专家(李小狼、曹兄等,不一一列了)发过一些帖子有他们的成果。我也会在textpro中吸收他们的成果。不知他们还有没有雅兴继续此项工作。最终成果也会上传到这里给大家共享。

在此我把我们录入的《汉字大字典》单卷本附录中的一万多组异体字分享给大家吧。我们只是录入,未做整理。也许对大家有用。

我还上传了我们做的组字式,分两种:一是big5中缺字但unicode中有字部分(组字方式不唯一,有重复),将近11800字。这张表中包括一些异体字、通用字和容错字;二是佛经中有但unicode中无的字,有16000多字。以上二文件肯定还有一些错误,只能以后慢慢完善吧。

如果有人愿意分担这项工作的话,可以给我来信(linden@fodian.net)。
【职业校对交流群:100079712】
快速回复
限1000 字节
 
上一个 下一个