当前位置:首页 > 热点 > 正文

facebook自动翻译怎么设置(facebook能翻译吗)

21财经网 2021-07-16 14:05:11

脸书现在以神经机器翻译(Neural Machine Translation,NMT)技术,支持每天将近60亿次翻译服务,虽然脸书在使用神经网络后,比起传统方法,翻译模型的速度与品质有了大幅改进,但是技术终究遇到瓶颈,使他们无法再继续增加翻译的语言数量。

在2018年,脸书语言和翻译技术(Language and Translation Technologies,LATTE)小组,决定进行改变,实现"没有任何语言被遗弃"的目标,增加包括塞尔维亚、白俄罗斯及阿姆哈拉语等24种语言翻译。而翻译少数语言存在两种挑战,第一,这些语言缺乏训练资源,可能没有足够现成人类翻译的文本,第二个挑战,他们需要找到能快速训练系统,并产生可用翻译的方法。

脸书主要采取了3个策略,来提高这些少数语言翻译的BLEU分数(一种衡量机器翻译准确性的方式)。第一个策略无可避免的还是需要增加训练用标记资料,脸书的贴文和其他的文本非常不同,通常更短也更不正式,包含许多缩写、俚语和拼写错误。为了要让算法学会翻译这些文字,需要先提供正确的学习范例,因此脸书抓取平台上的公开贴文,请专业的翻译人员进行手动标记。

脸书自动化抓取流程,自动选取并准备贴文,每周批次请不同的翻译单位提供专业翻译,总共为25种语言标记了数百万个字。为了衡量有效性,脸书量测训练前与训练后的BLEU分数,发现15个语言平均上升了7.2 BLEU,每一万个翻译句子配对,能平均增加算法翻译品质1.5 BLEU。

除了增加域内标记资料外,第二个策略则是使用半监督的神经机器翻译技术与资料增强方法,以生成额外的训练资料。除了之前文章的提到的反向翻译,为了训练阿姆哈拉语到英语翻译系统,脸书先训练英语到阿姆哈拉语的基本翻译系统,并用它将大量英语资料翻译成阿姆哈拉语,把这些翻译资料重新用作阿姆哈拉语到英语的训练资料。这样的方法在88%的情况下,平均提高了翻译品质2.5 BLEU。

另外,脸书还用了另一个与反向翻译概念类似的方法Copy-Target,意思是将目标翻译语言的部分单词换成来源语言,当要训练英语翻译至豪萨语系统,脸书会把部分对应的英语词汇换成豪萨语,让豪萨语翻译至豪萨语,并把这些翻译资料,做为英语翻译至豪萨语系统,额外的训练资料来源。在脸书的实验中,88%的案例平均改善了2.7 BLEU。

但半监督式的方法有其缺点,其大量仰赖资料特征,在资料不准确时便会为模型带来干扰,脸书请了专业翻译产生大量的翻译资料,这让翻译模型翻译脸书贴文的结果,变得不像社交媒体上会出现的句子,为此,脸书加入了社交媒体的训练资料,并在训练中复制了多个副本,增加对整体训练资料的影响,以帮助产生更高品质的翻译。脸书提到以反向翻译加上Copy-Target方法为基础,在100%的情况下社交媒体贴文修正,可使翻译品质提高0.4 BLEU。

第三个策略,脸书发现多个方言之间有相关性,当把特定方言的翻译方向,结合其他的翻译方向,将比单纯双语互相翻译的训练方式成果还要好。脸书提到,他们为了改善从白俄罗斯语到英语的翻译,利用了白俄罗斯语和乌克兰语之间的关系,额外建立了一个多语言系统。经过实验,多语言系统可以受惠同一语言家族的方言相似性,比起双语翻译基准,翻译品质高了4.6 BLEU。

标签: facebook
热门评论

最新文章

今日推荐

高铁上升级座位怎么收费 高铁选座位怎么选
高铁上升级座位怎么收费 高铁选座位怎么选

高铁上升级座位怎么收费 高...[详细]

热门排行

热门标签