- 郑纬民;
<正>近年来,预训练语言模型的出现给自然语言处理领域带来了一场变革,成为人工智能技术发展的前沿和热点。大规模预训练可以有效缓解传统技术在特征工程方面面临的压力。通过学习通用语言表示,模型具备了语言理解和生成能力,几乎在所有自然语言处理任务上都取得了突破。因此,各类基准测试任务的效果显著提高,这展示了大规模预训练广阔的应用前景。
2022年02期 v.28;No.163 1-2页 [查看摘要][在线阅读][下载 989K] [下载次数:526 ] |[网刊下载次数:0 ] |[引用频次:0 ] |[阅读次数:2 ] - 车万翔;刘挺;
以BERT和GPT为代表的、基于超大规模文本数据的预训练语言模型能够充分利用大模型、大数据和大计算,使几乎所有自然语言处理任务性能都得到显著提升,在一些数据集上达到甚至超过人类水平,已成为自然语言处理的新范式。认为未来自然语言处理,乃至整个人工智能领域,将沿着“同质化”和“规模化”的道路继续前进,并将融入多模态数据、具身行为数据、社会交互数据等更多的“知识”源,从而为实现真正的通用人工智能铺平道路。
2022年02期 v.28;No.163 3-9页 [查看摘要][在线阅读][下载 1216K] [下载次数:2027 ] |[网刊下载次数:0 ] |[引用频次:44 ] |[阅读次数:1 ] - 韩旭;张正彦;刘知远;
作为典型的数据驱动工具,预训练语言模型(PLM)仍然面临可解释性不强、鲁棒性差等难题。如何引入人类积累的丰富知识,是改进预训练模型性能的重要方向。系统介绍知识指导的预训练语言模型的最新进展与趋势,总结知识指导的预训练语言模型的典型范式,包括知识增强、知识支撑、知识约束和知识迁移,从输入、计算、训练、参数空间等多个角度阐释知识对于预训练语言模型的重要作用。
2022年02期 v.28;No.163 10-15页 [查看摘要][在线阅读][下载 1400K] [下载次数:444 ] |[网刊下载次数:0 ] |[引用频次:4 ] |[阅读次数:1 ] - 王海峰;孙宇;吴华;
预训练模型主要从海量未标注、无结构化的数据中学习,但缺少外部知识指导,存在模型学习效率不高、模型效果不佳和知识推理能力受限等不足。如何在预训练模型中引入语言知识、世界知识等外部知识,提升模型效果以及知识记忆和推理能力是一个难题。本文从不同类型知识的引入、融合知识的方法、缓解知识遗忘的方法等角度,介绍知识增强预训练模型的发展,并以知识增强预训练模型百度文心为例,详细探讨知识增强预训练模型的原理和应用。
2022年02期 v.28;No.163 16-24页 [查看摘要][在线阅读][下载 1412K] [下载次数:474 ] |[网刊下载次数:0 ] |[引用频次:2 ] |[阅读次数:1 ] - 卢志武;金琴;宋睿华;文继荣;
提出了悟道·文澜的BriVL双塔模型。该模型利用6.5亿对互联网图文数据,通过自监督的任务来训练,是目前最大的中文通用图文预训练模型。同时,还提出了悟道·文澜的多语言多模态预训练单塔模型—MLMM。实验结果证明,这两个模型在多个国际公开数据集上均取得了最佳性能。设计了实验并讨论超大规模多模态预训练模型对文本编码、图像生成和图文互检带来的影响,以及文澜模型的落地应用与学科交叉成果。
2022年02期 v.28;No.163 25-32页 [查看摘要][在线阅读][下载 1646K] [下载次数:469 ] |[网刊下载次数:0 ] |[引用频次:6 ] |[阅读次数:1 ] - 曾炜;苏腾;王晖;田永鸿;高文;
在鹏城云脑Ⅱ上训练了全球首个拥有全开源2 000亿参数的自回归中文预训练语言大模型——鹏程·盘古。鹏程·盘古模型基于1.1 TB高质量中文训练数据,采用全场景人工智能计算框架MindSpore自动并行技术实现了五维并行训练策略,从而可将训练任务高效扩展到4 096个处理器上。对比实验表明,在少样本或零样本情况下,鹏程·盘古模型在多个中文自然语言理解或生成任务上都具有较优的性能。在此基础上,鹏程·盘古模型在大模型压缩、提示微调学习、多任务学习以及持续学习等方面也取得了很好的应用效果。
2022年02期 v.28;No.163 33-43页 [查看摘要][在线阅读][下载 1386K] [下载次数:556 ] |[网刊下载次数:0 ] |[引用频次:11 ] |[阅读次数:1 ] - 林俊旸;周畅;杨红霞;
阿里巴巴达摩院研发了超大规模中文多模态预训练模型M6,并陆续推出了百亿、千亿、万亿和十万亿参数规模的预训练模型,实现了高效低碳的预训练,推动超大规模预训练模型的产业化应用。同时,推出了M6服务化平台,帮助广大用户快速使用大模型。未来,大模型在产业领域的应用将更加丰富。
2022年02期 v.28;No.163 44-50页 [查看摘要][在线阅读][下载 1485K] [下载次数:420 ] |[网刊下载次数:0 ] |[引用频次:6 ] |[阅读次数:1 ] - 马子轩;翟季;韩文弢;陈文光;郑纬民;
随着预训练模型规模的急剧增长,训练此类模型需要海量的计算和存储能力。为此,本工作在新一代国产高性能计算机上训练了一个174万亿参数的超大规模预训练模型,模型参数量可与人脑中的突触数量相媲美。重点讨论在训练这一超大规模预训练模型中遇到的几个关键系统挑战:如何选取高效并行策略,如何进行高效数据存储,如何选取合适的数据精度,以及如何实现动态负载均衡,并总结了针对上述挑战的一些解决方法。
2022年02期 v.28;No.163 51-58页 [查看摘要][在线阅读][下载 1374K] [下载次数:439 ] |[网刊下载次数:0 ] |[引用频次:9 ] |[阅读次数:1 ]