中兴通讯技术

热点专题 自然语言处理预训练模型

  • 自然语言处理预训练模型专题导读

    郑纬民;

    <正>近年来,预训练语言模型的出现给自然语言处理领域带来了一场变革,成为人工智能技术发展的前沿和热点。大规模预训练可以有效缓解传统技术在特征工程方面面临的压力。通过学习通用语言表示,模型具备了语言理解和生成能力,几乎在所有自然语言处理任务上都取得了突破。因此,各类基准测试任务的效果显著提高,这展示了大规模预训练广阔的应用前景。

    2022年02期 v.28;No.163 1-2页 [查看摘要][在线阅读][下载 989K]
    [下载次数:526 ] |[网刊下载次数:0 ] |[引用频次:0 ] |[阅读次数:2 ]
  • 自然语言处理新范式:基于预训练模型的方法

    车万翔;刘挺;

    以BERT和GPT为代表的、基于超大规模文本数据的预训练语言模型能够充分利用大模型、大数据和大计算,使几乎所有自然语言处理任务性能都得到显著提升,在一些数据集上达到甚至超过人类水平,已成为自然语言处理的新范式。认为未来自然语言处理,乃至整个人工智能领域,将沿着“同质化”和“规模化”的道路继续前进,并将融入多模态数据、具身行为数据、社会交互数据等更多的“知识”源,从而为实现真正的通用人工智能铺平道路。

    2022年02期 v.28;No.163 3-9页 [查看摘要][在线阅读][下载 1216K]
    [下载次数:2027 ] |[网刊下载次数:0 ] |[引用频次:44 ] |[阅读次数:1 ]
  • 知识指导的预训练语言模型

    韩旭;张正彦;刘知远;

    作为典型的数据驱动工具,预训练语言模型(PLM)仍然面临可解释性不强、鲁棒性差等难题。如何引入人类积累的丰富知识,是改进预训练模型性能的重要方向。系统介绍知识指导的预训练语言模型的最新进展与趋势,总结知识指导的预训练语言模型的典型范式,包括知识增强、知识支撑、知识约束和知识迁移,从输入、计算、训练、参数空间等多个角度阐释知识对于预训练语言模型的重要作用。

    2022年02期 v.28;No.163 10-15页 [查看摘要][在线阅读][下载 1400K]
    [下载次数:444 ] |[网刊下载次数:0 ] |[引用频次:4 ] |[阅读次数:1 ]
  • 知识增强预训练模型

    王海峰;孙宇;吴华;

    预训练模型主要从海量未标注、无结构化的数据中学习,但缺少外部知识指导,存在模型学习效率不高、模型效果不佳和知识推理能力受限等不足。如何在预训练模型中引入语言知识、世界知识等外部知识,提升模型效果以及知识记忆和推理能力是一个难题。本文从不同类型知识的引入、融合知识的方法、缓解知识遗忘的方法等角度,介绍知识增强预训练模型的发展,并以知识增强预训练模型百度文心为例,详细探讨知识增强预训练模型的原理和应用。

    2022年02期 v.28;No.163 16-24页 [查看摘要][在线阅读][下载 1412K]
    [下载次数:474 ] |[网刊下载次数:0 ] |[引用频次:2 ] |[阅读次数:1 ]
  • 悟道·文澜:超大规模多模态预训练模型带来了什么?

    卢志武;金琴;宋睿华;文继荣;

    提出了悟道·文澜的BriVL双塔模型。该模型利用6.5亿对互联网图文数据,通过自监督的任务来训练,是目前最大的中文通用图文预训练模型。同时,还提出了悟道·文澜的多语言多模态预训练单塔模型—MLMM。实验结果证明,这两个模型在多个国际公开数据集上均取得了最佳性能。设计了实验并讨论超大规模多模态预训练模型对文本编码、图像生成和图文互检带来的影响,以及文澜模型的落地应用与学科交叉成果。

    2022年02期 v.28;No.163 25-32页 [查看摘要][在线阅读][下载 1646K]
    [下载次数:469 ] |[网刊下载次数:0 ] |[引用频次:6 ] |[阅读次数:1 ]
  • 鹏程·盘古:大规模自回归中文预训练语言模型及应用

    曾炜;苏腾;王晖;田永鸿;高文;

    在鹏城云脑Ⅱ上训练了全球首个拥有全开源2 000亿参数的自回归中文预训练语言大模型——鹏程·盘古。鹏程·盘古模型基于1.1 TB高质量中文训练数据,采用全场景人工智能计算框架MindSpore自动并行技术实现了五维并行训练策略,从而可将训练任务高效扩展到4 096个处理器上。对比实验表明,在少样本或零样本情况下,鹏程·盘古模型在多个中文自然语言理解或生成任务上都具有较优的性能。在此基础上,鹏程·盘古模型在大模型压缩、提示微调学习、多任务学习以及持续学习等方面也取得了很好的应用效果。

    2022年02期 v.28;No.163 33-43页 [查看摘要][在线阅读][下载 1386K]
    [下载次数:556 ] |[网刊下载次数:0 ] |[引用频次:11 ] |[阅读次数:1 ]
  • 超大规模多模态预训练模型M6的关键技术及产业应用

    林俊旸;周畅;杨红霞;

    阿里巴巴达摩院研发了超大规模中文多模态预训练模型M6,并陆续推出了百亿、千亿、万亿和十万亿参数规模的预训练模型,实现了高效低碳的预训练,推动超大规模预训练模型的产业化应用。同时,推出了M6服务化平台,帮助广大用户快速使用大模型。未来,大模型在产业领域的应用将更加丰富。

    2022年02期 v.28;No.163 44-50页 [查看摘要][在线阅读][下载 1485K]
    [下载次数:420 ] |[网刊下载次数:0 ] |[引用频次:6 ] |[阅读次数:1 ]
  • 高效训练百万亿参数预训练模型的系统挑战和对策

    马子轩;翟季;韩文弢;陈文光;郑纬民;

    随着预训练模型规模的急剧增长,训练此类模型需要海量的计算和存储能力。为此,本工作在新一代国产高性能计算机上训练了一个174万亿参数的超大规模预训练模型,模型参数量可与人脑中的突触数量相媲美。重点讨论在训练这一超大规模预训练模型中遇到的几个关键系统挑战:如何选取高效并行策略,如何进行高效数据存储,如何选取合适的数据精度,以及如何实现动态负载均衡,并总结了针对上述挑战的一些解决方法。

    2022年02期 v.28;No.163 51-58页 [查看摘要][在线阅读][下载 1374K]
    [下载次数:439 ] |[网刊下载次数:0 ] |[引用频次:9 ] |[阅读次数:1 ]

综合信息

  • 新增编委介绍

    <正>金石,东南大学副校长、首席教授、博士生导师、教育部“长江学者奖励计划”特聘教授、国家自然科学基金杰出青年科学基金获得者、国家“万人计划”科技创新领军人才、江苏省特聘教授、中国通信学会会士、全国工程专业学位研究生教育指导委员会委员、民盟中央青年工作委员会委员、民盟江苏省委青年工作委员会副主任;长期从事移动通信的教学和研究工作,围绕蜂窝移动通信理论与关键技术、物联网理论与关键技术,以及人工智能在移动通信中的应用等领域开展研究工作,

    2022年02期 v.28;No.163 9页 [查看摘要][在线阅读][下载 1035K]
    [下载次数:16 ] |[网刊下载次数:0 ] |[引用频次:0 ] |[阅读次数:2 ]

专家论坛

  • 自然语言处理技术发展

    王海宁;

    基于神经网络和深度学习的预训练语言模型为自然语言处理技术带来了突破性发展。基于自注意力机制的Transformer模型是预训练语言模型的基础。GPT、BERT、XLNet等大规模预训练语言模型均基于Transformer模型进行堆叠和优化。认为目前依赖强大算力和海量数据的大规模预训练语言模型存在实用问题,指出轻量预训练语言模型是未来重要的发展方向。

    2022年02期 v.28;No.163 59-64页 [查看摘要][在线阅读][下载 1282K]
    [下载次数:5924 ] |[网刊下载次数:0 ] |[引用频次:62 ] |[阅读次数:1 ]

企业视界

  • 数字基础设施建设的思考与实践

    王喜瑜;

    在通往万物智联的道路上,高效的数字基础设施和可交易的数字化能力,正在成为数字经济的核心源动力。构建高效的数字基础设施,需要“从建好网到用好网”“从连接到算力”的演进;构建可交易的数字化能力,则需要“从消费到产业”“从工具到交易”的数字化转型。在当前复杂的产业环境下,数字经济要实现可持续的高质量发展,必须培育具备多样性、系统性和开放性的创新生态。

    2022年02期 v.28;No.163 65-67页 [查看摘要][在线阅读][下载 1086K]
    [下载次数:750 ] |[网刊下载次数:0 ] |[引用频次:2 ] |[阅读次数:2 ]
  • 5G行业虚拟专网能力提升与实践

    陆平;欧阳新志;高雯雯;

    作为5G行业应用融合发展的必经之路,5G行业虚拟专网将持续增强行业应用专网能力,推动行业应用创新、落地及规模复制。中兴通讯从可靠性提升、服务质量(QoS)保证、网络互联、安全性提升、易运维5个方面来提升5G行业虚拟专网能力,并总结了行业应用落地的问题与经验,以进一步指导其他试点应用,推动5G行业应用形成规模复制的发展态势。

    2022年02期 v.28;No.163 68-74页 [查看摘要][在线阅读][下载 1227K]
    [下载次数:329 ] |[网刊下载次数:0 ] |[引用频次:9 ] |[阅读次数:1 ]
  • 下载本期数据