当前位置:首页 > 翻译资源

网上IA翻译的进展

发布时间:2012-6-11      阅读次数:1535

网上IA翻译的进展

  随着互联网技术的成熟,所有信息都将会在互联网上以电子形式发表,而这些电子信息又是用各种不同民族语言写成的。对这些不同格式的电子信息进行线上翻译是人类突破交流障碍的一大希望。由于需要翻译的资料越来越多,对翻译速度的要求将明显高于对翻译质量的要求。在此情况下,线上机器翻译是信息时代全球化交流的一个解决方案。令人高兴的是,几种实用型线上机器翻译软件系统已在网上推出。所谓“线上机器翻译”是指人们应用计算机通过互联网查询,在浏览资料时,可以借助联机翻译软件,对此文本进行实时翻译,以获得他们所需的信息。

  机器翻译的历史可以追溯到1947年3月,当时洛克菲勒基金会的自然科学部主任Warren Weaver与他的朋友在通信及会晤中正式讨论·了如何应用电子计算机翻译自然语言的问题。从那时候开始,机器翻译已经走过五十年的历程,而网上机器翻译的服务系统仅在近两三年才出现。大多数机译系统并非为翻译线上文本所设计,使用者一般为懂得双语的翻译人员。被翻译的原文的题材较为固定而且为专业人员所撰写;相应的译文质量要求也很高,可供正式出版。从事这种翻译工作的译员可以慢工出细活,先用机器翻译得到译文初稿,然后再进行后期编辑的修饰加工。与这些机器翻译软件相比,线上机器翻译软件的对象完全不同。其用户一般不懂原文的语言,他使用线上翻译系统的目的仅是浏览和摘要网上信息,因此他要求有实时的文本翻译速度,而不在乎译文质量。但是,在互联网上交流的资料涉及的主题范围广泛、文章风格各异,而且这些资料常常仓促行文,普遍存在着丈法、标点及拼写错误。所以,线上翻译软件能够进行高速翻译的同时还应有足够的鲁捧性(robust)以能处理各种题材、风格和各种可能的文本错误。

 

  目前已在网上提供的机器翻译服务可分两类:基于电子邮件(E-mail)的机器翻译和基于环球网(World Wide Web)的机器翻译软件。

 

  从严格定义上讲,大多数基于电子邮件的机器翻译并不是“线上”和“机译”的。在这里,“线上”不是指实时翻译,而是指随着互联网的出现,聪明的厂家把生意做上了互联网,提供联机服务。在这种联机服务中,厂家往往或者为了商业宣传而提供免费翻译服务,或者提供软件本地化以及产品说明书和技术资料本地化服务,后者是为产品开拓国际市场而提供的专业服务。如一家设在加拿大的…快译”公司(Express Translation Bureau)就有专业翻译人员提供中英文双向免费翻译服务,用户只需要把中文或英文文本资料通过互联网用电子邮件投寄…决译”公司,几夭之后就可以收到由专业翻译人员翻译的质量较高的译文。而总部设在英国的SDL公司就为用户提供包括软件、电子出版物、多媒体产品在内的本地化收费服务。与前老一样,翻译过程也是由专业翻译人员在工程师的帮助下完成的。

 

  总之,基于电子邮件的“机器翻译”是互联网在全球范围内拓展,“翻译”的过程是由专业人员完成。不论怎样,与其它商业机构将产品推上互联网一样,“线上挂牌”和“人工翻译”这一新的翻译经营方式的兴起也从一个侧面说明:人们已经主动接受互联网迅速发展这一事实,并在悄然实现经营方式、工作方式与学习方式的划时化转变。这一转变的直接结果,使更多的用不同种语言书写的信息在互联网上交流,也促使互联网得到更广泛的发展,从而使互联网最终成为信息时代不可缺少的学习工具和学习环境,为线上机器翻译的研究、实现与应用打下坚实的物质基础。

 

  2.基于环球网(World Wide Web)的机器翻译

 

  所谓环球网是基于互联网的信息表示、存储与传播的系统。互联网是通过光纤电缆或微波卫星联接起来的巨型计算机通信网络系统。而环球网则是以互联网为依托的软件系统。它通过互联网处埋超媒体(Hypermedia)信息。超媒体是超文本(Hypertext)与多媒体(Multimedia)的结合。我们平时看到的文字资料称为线性格式文本,如图书和报纸等,它们都是以串行顺序方式印刷的。超文本资料则是以空间方式存放,构成非线性、非顺序、无边界的信息空间,使读者可以通过超链接(Hyperlir1k)在这种信息空间内自由翱翔。多媒体是近几年来计算机领域中发展的一项新技术。它使计算机所处理的信息从传统的数值和文字,扩展到声音、图形、图像、影视和动画等。

 

  下面介绍三个影响较大的网上机器翻译系统:

 

  SYSTRAN提供的免费网页翻译服务、Globalink开发的名为Web Translator翻译软件、以及compuServ,的环球公众l2if(World Community Forum)。SYSTRAN公司开发机器翻译系统的历史悠久而且硕果累累。今天,欧共体委员会(Commission of the European Community)已使用SYSTRAN 开发的机译系统,实现了其六种官方语言:英、法、德、意、西班牙和葡萄牙文的互译。据估计,欧共体每年约有35%到40%的经费用于“语言问题”开销。SYSTRAN这种实现不同语种相互机器翻译的成果对欧共体的运作法入了高效润滑剂。

 

  美国国家情报中心的分支机构遍布全球,对收集到的情报要及时处理,以供决策者作决策依据。依靠sYsTRAN的机器翻译软件,辅以网络技术,国家情报中心已经实现了线上翻译。国家情报中心拥有一个名为“开放资源信息服务”(Open Source lnformation Service)的网络。情报工作者只需要把要翻译的文本提交给该网络,该网络使用9种由sYSTRAN开发的不同语言对机器翻译软件完成翻译工作,然后把结果回送给情报提交者。“开放资源信息服务”网络与一个叫Interlink的高级机密网络连接,而后者则直通五角大楼和中央情报局。1994年,一共有3000个用户、35个情报机构使用“开放资源信息服务”网络,实现了情报的线上翻译。

 

  1996年,sYsTRAV1推出了世界上首项线上环球网网页机器翻译服务,目前该项服务只限于英语与德语、法语、葡萄牙语、意大利语和西班牙语的互译,以及俄语到英语的单向翻译。用户只需键入要翻译文件所在的网页地址,选择目标语言语种,键入用户电子邮箱地址。只要被翻译的文本不超过10K字节,此网页机器翻译系统会免费为用户翻译丈本并随后把译文送回给用户。此系统是以客户/服务器(Client/server)体系为基础开发的,由一台名为SYSTRAN翻译服务器(Translation Server)执行翻译工作。此台服务器同时运行11种语言对翻译软件,接受来自全球各地的翻译服务请求。用户在提交要翻译的文本后,视源文本长度及服务器繁忙程度,会有不同程度的延迟,有时甚至会中断服务请求。

 

  SYSTRAN 的环球网线上机器翻译系统规定要翻译的文本必须放在互联网上,笔者曾在澳门大学用在该校网页上刊载的英文版和葡文版的澳门特别行政区基本法测试此环球网线上机器翻译系统,发现译文正确率达80%。众所周知,法律文件对语言描述的准确性要求甚严,任何模棱两可的含义都会造成严重后果。因此,sYsTRAN环球网线上机器翻译系统的测试结果令人鼓舞。

 

  Globalink公司创建于1989年。目前该公司的软件仅实现西班牙语、法语、德语、意大利语与英语互译。

 

  据Globalink发表的资料称:全世界范围内靠机器翻译软件完成的语言翻译总额,Globalink系统占了80%,可见在机器翻译市场,该公司是一一个举足轻重的角色。

 

  Globalink目前提供一种叫做Web Trans[ator的线上机器翻译软件。该软件运行在SUN公司出品的Netscape和微软的Explorer上,能够实现互联网上的西班牙文、法文、德文与英文信息的线上实时互译。这意味着一个只懂英文的用户在浏览用法文书目的网页信息时,只要运行该软件,便能生成该网页信息的英文译文。安装并运行Web Translator软件后,用户想要浏览非本民族语言书写的网页信息时,具体操作是:首先用Nfetscape或Explorer浏览器找到要查询的文本信息,用户再接菜单选项的“翻译’,按钮;随后选择源语言与目标语言语种;最后Web Translator产生翻译草稿,并插入浏览器中,且译文输出格式与源语言版面格式保持一致。在翻译的过程中,容许用户自己设走存储已翻译出来句子的译文量,范围为3页到999页的连续文本。这些已经翻译出来的源语言文本与目标语言文本同时被存储起来,其目的是为了下次遇到同样的句子时,能够直接从存储器中再次取出,免去了重复性的工作,从而提高了整个系统的翻译效率。一般而言,发现语句对采用的是模糊匹配算法,用户可自行定义匹配权值。

 

  另外,Web Translator为用户提供了可对电子词典编辑的功能,用户能够添加电子词典中不存在的单词与短语,从而提高翻译效率。

 

  除了上述两种系统外,CompuServe公司提供了环球公众论坛(World Community Forum)线上翻译服务。CompuServe拥有三百万用户会员,遍布世界150多个国家,是全球最大一家信息服务公司。它于1994年引进Intergraph的软件系统并开拓线上机译服务,1995年2月创立环球大众论坛,为其成员交流政治观点、发表对交互文化的个人见解、以及发布体育旅游信息提供了方便。目前,论坛参与者可用英、法、德、西班牙语中的任何一种语言在网上交谈,具体讲,一位讲英语的论坛成员登录到英语论坛后,池既可以阅读英文信息,也可以及时发表自己的观点。一旦他发表了观点,这些用英文写成的观点就立即被收集起来,并翻译成法、德、西班牙三种语言文本,三分钟后,便可显示在法、德、西班牙文论坛上。当然,考虑到译文质量,在显示译文的同时,也保留了源语言文本的拷贝。为避免歧义,论坛成员可随时阅读源语言文本。在论坛创建的头四个月,已有一万五千人次在网上发表了意见,每一夭论坛通过机器翻译的信息有将近三万词条。

 

  除了上述已在网上提供服务的文本翻译系统,基于语音(Speech to Speech)实时处理的线上机器翻译系统也是研究的热点。研究人员从早期机器翻译研究中吸取了重要教训:通用高质量机器翻译系统在目前只是一个梦想。所以大多数研制的语音机器翻译系统只能翻译一定主题域的语音。

 

  1993年,在德国联邦工业部(German Federal Ministry)主要资助下,30多所德国、美国、日本大学研究机构及工业企业参与了一个名为Verbmobil的语言机器翻译研究计划。此计划的目的是把基于一定主题域的自然语音自动翻译成另一种自然语音,并且与说话者无关。1995年,第一台完全集成化的Verbmobil系统成功地把一段基于一定主题域的德语口语翻译成清楚的英语口语输出。到“一期工程”结束时,Verbmobil的语音识别率已达到73.3%。1996年,随着Verbmob11原型机实现了一段基于一定主题域的日语到英语的口语自动翻译,Verbmobil计划进入了“二期工程”。此计划的“二期工程”准备扩大主题域范围,增加可译语言对,并能识别不一致信息,如“2月31日”,“早上16:00点”等。

 

  与手写文本相比,口语不存在标点符号,重读与短语代替了句号和逗号。另外,口语中存在大量如“哼,啊”等毫无意义的语气词。如何辨别出一个完整的句子,如何过滤掉无意义单词,都是语音实时线上机器翻译软件要解决的难点。

 

  可以设想,在未来,当用户通过互联网在浏览一段非本民族语言发布的多媒体信息时,使用文本和语音机器翻译软件可以实时把这段信息中的文字、声音和图像说明完全本地化,以致感觉不到语言障碍的存在。

 

  汉语是世界上使用人数最多的一种语言文字,但是在互联网上用中文发布的信息却是沧海一栗。因此,对大多数仅懂自己母语的中国人来说,浏览互联网时尤其需要外语与汉语之间的线上机器翻译系统。目前,国内已有“希望”和“网际金点Roboword)”等线上翻译词典推出。使用这些电脑词典无需任何输入文字的工作,在刹览网页时,当遇到不懂的英文词,只需将鼠标指向它,相关的中文解释就随着显示。此外,国内还开发有可作文本翻译的软件系统,但它们尚未能在网上提供联机服务。为了让我们的同胞充分开发利用互联网上的信息资源,除了加`决信息高速公路的基础设施建设外,汉语与外语互译的线上翻译系统的研制和开发亦为当务之急。

译路通武汉汉口翻译公司整理

2012.6.11

  返回>>Top
-x