机器翻译 编辑
机器翻译属于计算语言学的范畴,其研究借由计算机程序将文字或演说从一种自然语言翻译成另一种自然语言。简单来说,机器翻译是将一个自然语言的字辞取代成另一个自然语言的字辞。借由使用语料库的技术,可达成更加复杂的自动翻译,包含可更佳的处理不同的文法结构、辞汇辨识、惯用语的对应等。
2
相关
Google神经机器翻译系统,是Google开发的神经机器翻译系统,于2016年11月推出,它使用人工神经网络来提高Google翻译的流畅度和准确性。Google神经机器翻译系统通过应用基于实例的机器翻译方法来改进翻译质量,系统会从数百万个示例中学习。翻译系统提出的系统学习架构首先通过Google翻译支持的一百多种语言进行了测试。随着大型端到端框架的发展,系统会随着时间的推移学习,做出更好,更自然的翻译。GNMT能够一次过翻译整句句子,而不是逐字翻译。
统计机器翻译机器翻译的一种,也是目前非限定领域机器翻译中性能较佳的一种方法。统计机器翻译的基本思想是通过对大量的平行语料进行统计分析,构建统计翻译模型,进而使用此模型进行翻译。从早期基于词的机器翻译已经过渡到基于短语的翻译,并正在融合句法信息,以进一步提高翻译的精确性。
译后编辑指的是“通过少量的人工修改以对机器生成的翻译进行完善”的过程。进行译后编辑的人员被称为译后编辑员。
译后编辑这一概念与译前编辑相关。在使用机器翻译时,对原文 – 进行译前编辑可提高翻译质量,例如可将受控语言 – 的原则应用于译前编辑上,然后再对机器生成的翻译进行译后编辑。
译后编辑与编辑有所不同。编辑指对人工翻译的文本进行完善的过程,在翻译界,这一过程常被称为修订。
译后编辑过的文本可能随后需要进行修订以保证语言选择的质量并进行校对以改正一些小的错误。
译后编辑需要对机器翻译的文本进行改正以保证翻译的质量达到顾客与译后编辑员事前商定好的标准。
简略译后编辑旨在将文本翻译至可理解的程度,而全面译后编辑则在保证意思的同时力求文风与原文一致。
机器翻译和全面译后编辑的进步使得其可与人工翻译媲美。有一系列软件工具,如谷歌翻译工具包、SDL Trados 以及Systran等都支持对机器生成的翻译进行译后编辑。
统计机器翻译是机器翻译的一种,也是目前非限定领域机器翻译中性能较佳的一种方法。统计机器翻译的基本思想是通过对大量的平行语料进行统计分析,构建统计翻译模型,进而使用此模型进行翻译。从早期基于词的机器翻译已经过渡到基于短语的翻译,并正在融合句法信息,以进一步提高翻译的精确性。
神经机器翻译是一种引入人工神经网络进行翻译的机器翻译。2014年出现了第一篇关于在机器翻译中使用神经网络的科学论文,随后几年神经机器翻译又取得了一些进展。
一般认为,机器翻译的历史始于1950年代。虽然相关理论和研究较早已经进行,但在1954年初的乔治城大学的实验,即电脑成功将四十多条俄文句子自动翻译成英文,是机器翻译史中的一个里程碑,标志着现代机器翻译的开端。美国也因此投入了大量资金研究机器翻译。上述实验的研究人员声称在三或五年内,机器翻译中遇到的语言逻辑的困难将会迎刃而解。苏联的研究人员随后也进行了类似的实验。
一般认为,机器翻译的历史始于1950年代。虽然相关理论和研究较早已经进行,但在1954年初的乔治城大学的实验,即电脑成功将四十多条俄文句子自动翻译成英文,是机器翻译史中的一个里程碑,标志着现代机器翻译的开端。美国也因此投入了大量资金研究机器翻译。上述实验的研究人员声称在三或五年内,机器翻译中遇到的语言逻辑的困难将会迎刃而解。苏联的研究人员随后也进行了类似的实验。
在线词典又称线上词典,是可以通过电子设备透过互联网进行字词查阅的词典,种类包括单语、双语、多语、各专业词典、机器翻译服务等,可以提供比传统纸质或电子词典更为丰富的服务方式及内容。缺点是需通过网络才可查阅,及有些免费服务的内容可能不够严谨。
Seq2Seq模型,是将序列映射到序列的神经网络机器学习模型。这个模型最初设计用于改进机器翻译技术,可容许机器通过此模型发现及学习将一种语言的语句映射到另一种语言的对应语句上。除此之外,Seq2Seq也能广泛地应用到各种不同的技术上,如聊天机器人、Inbox by Gmail等,但需要有配对好的文本集才能训练出对应的模型。
乔治城-IBM实验是1954年1月7日由乔治城大学和IBM进行的一场实验,以展示机器翻译的潜能。实验人员将60多个俄语句子使用机器翻译翻译成了英文。