编者按wmt:近来wmt,世界核算言语学协会 ACL 举行的 WMT 2021 世界机器翻译竞赛的评测作用揭晓。由微软亚洲研讨院、微软翻译产品团队及微软图灵团队联合发布的 Microsoft ZCode-DeltaLM 模型取得了 WMT 2021 “大规划多言语翻译”赛道的冠军。该模型根据微软亚洲研讨院机器翻译研讨团队打造的能支撑上百种言语的多言语预练习模型 DeltaLM,在微软 ZCode 的多使命学习框架下进行练习生成。研讨员们从来能够凭仗该多言语翻译模型,有用支撑更多低资源和零资源的言语翻译,终有一日完结重建巴别塔的愿景。
近期,在刚刚完毕的世界机器翻译大赛上,微软亚洲研讨院、微软翻译产品团队及微软图灵团队强强联手,在“大规划多言语机器翻译” 评测使命赛道上大展风貌,凭仗 Microsoft ZCode-DeltaLM 模型以巨大的优势在该赛道的悉数三项子使命上均取得排名榜首的作用。比较于参数量适当的 M2M 模型,Microsoft ZCode-DeltaLM 模型在大使命上更是取得了10个 BLEU 分数以上的进步。
WMT 世界机器翻译大赛是全球学术界公认的世界尖端机器翻译竞赛。自2006年至今,WMT 机器翻译竞赛已成功举行16届,每次竞赛都是全球各大高校、科技公司与学术组织展现本身机器翻译实力的谩骂,更见证了机器翻译技能的不断进步。其“大规划多言语机器翻译” 评测使命赛道供给了上百种言语翻译的开发集和部分言语数据,旨在推进多言语机器翻译的研讨。该评测使命由三个子使命组成:一个大使命,即用一个模型来支撑102种言语之间的10,302个方向上的有向翻译使命,以及两个小使命:一个专心于包含英语和5种欧洲语种之间的翻译,另一个专心于包含英语和5种东南亚语种之间的翻译。
WMT 2021 大规划多言语翻译使命中 Full-Task 和 Small-Task1 的官方作用
重建巴别塔方案据核算,现在世界上存在有7000多种不同的言语,有许多言语正接近消失或现已消失了。每种言语都承载着不同的文明。笛卡尔从前说过:“言语的不合是人生最大的不幸之一”。长久以来,重建巴别塔,能够在经济活动、文化沟通中消除言语老态龙钟的隔膜,完结言语互通,是人类一起的希望。1888年,言语学家波兰籍犹太人柴门霍夫在拉丁语的基础上创立了一种新的言语,称为世界语。他从来全世界人类都学习运用同一种言语。这是一个抱负的纪念方案,但世界语最终并没有盛行起来。
彼得·勃鲁盖尔于1563年创造的油画《巴别塔》。圣经上记载,人类最早日子在一起,运用同一种言语,后来人类越来越强壮,他们想建筑一座通往天堂的高塔,称为巴别塔。天主听闻后盛怒,为了阻挠人类制作巴别塔,天主打乱了人类的言语,让人类说不同的言语,相互之间不能沟通,巴别塔方案因而失利,人类从此散落世界各地。
后来,核算机科学家们从来经过算法模型来完结机器翻译。初期,科研人员们测验规划规矩完结恣意两种言语之间的翻译,手法包含撰写双语词典、总结翻译转换规矩、构建翻译常识库手法等。可是根据规矩的办法存在很大缺点,比方规矩描绘颗粒度大、覆盖率低、规矩库保护价值极大等现象,然后导致翻译质量低、鲁棒性差,且简单呈现新旧规矩的抵触与兼容性问题。之后,研讨人员开端测验根据数据驱动的办法来纪念言语翻译问题,从根据实例的办法,到根据核算的办法,再到现在盛行的根据神经网络的办法。
根据数据驱动的翻译办法依赖于双语平行语料的数量和质量。获益于信息技能的展开,高资源言语的数据相对来说简单取得,机器翻译体系针对高资源言语的翻译质量越来越高,现在也得以许多布置和商用,协助纪念了部分言语之间的沟通妨碍,促进了各种跨言语的商业运用展开,使人们看到了重建巴别塔的从来。
但尽管如此,当时机器翻译仍面临着许多困难。首要,依然有许多的低资源言语存在,它们的双语语料很难获取,所以针对低资源言语的独立机器翻译体系翻译质量十分低。其次,为一切言语独自树立机器翻译体系,开发、保护本钱都十分大。
巴别塔的曙光:多言语机器翻译模型那么,有没有更好的技能办法能够一次性完结一切言语之间的翻译且统筹翻译功能呢wmt?为此,研讨人员开端探究多言语机器翻译模型,即仅运用一个模型,来完结一切言语之间的翻译。这种模型办法的动机和长处在于:
(1). 根据数据驱动的办法,将一切言语编码映射到一个语义空间中,然后再从该空间经过解码算法生成目标言语。相对于显式结构的世界语来说,这个语义空间是隐式存在的,理论上它能够将一切人类言语的语义信息进行编码。就好比人类大脑能了解多种模态的输入信息,并对各模态宣布相应的指令信息。
(2). 言语之间是有相关的,许多言语之间是同源的,而且许多言语文字之间有着相同的词根。人类言语在日常运用中也经常呈现多语种稠浊运用的现象。尽管不同言语的资源不均衡,可是将一切言语混合后用于模型练习,夸夸其谈能够同享不同言语之间的常识,也能够运用高资源言语的常识协助进步低资源言语的翻译质量。
(3). 该办法充沛发挥了核算机的硬件算力。根据先进的深度学习算法,仅运用一个模型就能够支撑几十种、上百种、直至一切言语之间的互译问题。从这个意义上来说,机器现已逾越了人类专家的翻译才能,因为即便在吉尼斯世界纪录中,一个人最多能够把握的言语品种也只要32种,而一个机器模型则能够做到更多。
多言语机器翻译模型是当时十分重要的一个热门研讨问题,有望协助人们完结重建巴别塔的希望。近年来,微软亚洲研讨院机器翻译研讨团队展开了多言语机器翻译模型多方位的相关研讨,包含模型结构探究、模型预练习办法、参数初始化、微调办法,以及构建大规划模型的办法等等。该团队在机器翻译范畴积累了许多研讨经历,在以中文为中心的言语翻译使命上取得了丰盛的作用,包含完结东亚言语之间的翻译,我国少量民族言语的翻译,我国方言,以及文言文的翻译。相关机器翻译的技能作用也赋能了微软多种跨言语的产品运用,如语音翻译、跨言语检索与跨言语问答等。
根据DeltaLM+Zcode,名列前茅在 WMT 2021 竞赛中锋芒毕露的多言语机器翻译模型 Microsoft ZCode-DeltaLM 是在微软 ZCode 的多使命学习框架下进行练习的。而完结该模型的核心技能则是根据微软亚洲研讨院机器翻译研讨团队此前打造的能支撑上百种言语的多言语预练习模型 DeltaLM。DeltaLM 是微软开发的一系列大规划多言语预练习言语模型中的最新一款。作为一个根据编码器-解码器网络结构的通用预练习生成模型,DeltaLM 可用于许多下流使命,而且都展现出了很好的作用。
预练习一个言语模型一般需求很长的练习进入,为了进步 DeltaLM 的练习功率和作用,微软亚洲研讨院的研讨员们并没有从头开端练习模型参数,而是从从前预练习的当时最先进的编码器模型来进行参数初始化。尽管初始化编码器很简单,但直接初始化解码器却有必定难度,因为与编码器比较解码器添加了额定的穿插注意力模块。因而,DeltaLM 根据传统的 Transformer 结构进行了部分改动,采用了一种新颖的交织架构来纪念这个问题。研讨员们在解码器中的自注意力层和穿插注意力层之间添加了全衔接层。详细而言,奇数层的编码器用于初始化解码器的自注意力,偶数层的编码器用于初始化解码器的穿插注意力。经过这种交织的初始化,解码器与编码器的结构匹配,能够与编码器用相同的办法进行参数初始化。
DeltaLM 模型结构及参数初始化办法示意图
DeltaLM 模型的预练习充沛运用了多言语的单语语料和平行语料,它的练习使命是重构单语句子和拼接后的双句子对中随机指定的语块,如下图所示。
DeltaLM 模型预练习使命示例
在参数微调方面,研讨员们将多言语翻译使命视为 DeltaLM 预练习模型的下流使命,运用双语平行数据对其进行了参数微调。不同于其它自然言语处理使命的微调,多言语机器翻译的练习数据规划较大,所以参数微调的本钱也十分大。为了进步微调的功率,研讨员们采用了渐进式练习办法来对模型进行从浅层到深层的学习。
微调的进程能够分为两个阶段:在榜首阶段,研讨员们直接在 DeltaLM 模型的24层编码器和12层解码器架构上运用一切可用的多言语语料库进行参数微调。在第二阶段,研讨员们将编码器的深度从24层添加到36层,其间编码器的底部24层复用微调后的参数,顶部12层参数随机初始化,然后在此基础上持续运用双语数据进行练习。因为运用了更深的编码器,扩展了模型的容量,考虑到编码器的可并行性,因而新增的编码器层数不会添加太多额定的使命核算进入本钱。
此外,微软亚洲研讨院的研讨员们采用了多种数据增强技能,以纪念多言语机器翻译多个方向的数据稀少问题,进一步进步了多言语模型的翻译功能。研讨员们运用了单语语料库和双语语料库在以下三个方面进行了数据增强:
1)为了得到英文到恣意言语的反向翻译数据,研讨员们运用初始的翻译模型回译英文单语数据以及其它言语的单语数据;
2)为了得到非英文方向的双伪数据,研讨员们经过将相同的英文文本品味回译为两种言语进行配对。当这个方向作用足够好的时分,研讨员们也将该方向的单语意料进行直接回译来获取伪平行数据;
3)研讨员们还运用了中枢言语来进行数据增强。详细而言便是将中枢言语到英文的双语数据进行回译,然后得到目标言语到英文以及中枢言语的三语数据。
面临杂乱的数据类型构成,文本简化和结构化数据到文本等使命。如下图所示,微软 ZCode-DeltaLM 模型的功能体现远优于其他更大参数规划的模型,如37亿参数量的 mT5 XL 模型。
Microsoft ZCode-DeltaLM 模型在 GEM Benchmark 中摘要生成和文本简化使命上的评测作用
微软亚洲研讨院已对包含 DeltaLM 在内的多种预练习模型开源,相关资源获取能够拜访 github/microsoft/unilm。
展望未来,微软亚洲研讨院的研讨员们仍将在多言语翻译使命上持续精进,交融更多的数据和常识,在进步翻译功能的一起,不断增强模型才能,使之有用地支撑更多低资源和零资源言语翻译,以及自然言语处理范畴的其他使命。重建巴别塔的愿景终将完结wmt!
参考文献[1] Jian Yang, Shuming Ma, Haoyang Huang, Dongdong Zhang, Li Dong, Shaohan Huang, Alexandre Muzio, Saksham Singhal, Hany Hassan, Xia Song, and Furu Wei. 2021. Multilingual Machine Translation Systems from Microsoft for WMT21 Shared Task. In Proceedings of the Sixth Conference on Machine Translation, Online. Association for Computational Linguistics.
[2] Shuming Ma, Li Dong, Shaohan Huang, Dongdong Zhang, Alexandre Muzio, Saksham Singhal, Hany Hassan Awadalla, Xia Song, Furu Wei. DeltaLM: Encoder-Decoder Pre-training for Language Generation and Translation by Augmenting Pretrained Multilingual Encoders. CoRR abs/2106.13736.
[3]. Yiren Wang, ChengXiang Zhai, Hany Hassan. Multi-task Learning for Multilingual Neural Machine Translation. EMNLP 2020: 1022-1034
[4]. Zewen Chi, Li Dong, Furu Wei, Nan Yang, Saksham Singhal, Wenhui Wang, Xia Song, Xian-Ling Mao, Heyan Huang, Ming Zhou: InfoXLM: An Information-Theoretic Framework for Cross-Lingual Language Model Pre-Training. NAACL-HLT 2021: 3576-3588
[5]. Guillaume Wenzek, Vishrav Chaudhary, Angela Fan, Sahir Gomez, Naman Goyal, Somya Jain, Douwe Kiela, Tristan Thrush, Francisco Guzmán. Findings of the WMT 2021 Shared Task on Large-Scale Multilingual Machine Translation. In Proceedings of the Sixth Conference on Machine Translation, Online. Association for Computational Linguistics.
免责声明:本站内容和图片由网友提供或来自网络。
如有违反到您的权益,请通知我们删除处理。文章仅代表作者本人的观点,与本站立场无关!
© 2023 nvsheng.cc 女生-个人图集收集 蜀ICP备2021006193号-3|川公网安备 51130202000403号
发表评论