“这两年内，大模型带来了750倍算力需求的增长，而硬件的算力供给（增长）仅有3倍。”华为昇腾计算业务总裁张迪煊在2023世界人工智能大会上，揭开了被大模型“暴力计算”引发巨大算力缺口的真相。

而这个算力缺口还在进一步扩大当中，张迪煊预计，到2030年 AI 所需的算力，相对2020年还会增长500倍。

(资料图)

与此同时，由于众所周知的原因，算力国产化也迫在眉睫。

针对如何补足算力短板，毕马威中国数字化赋能主管合伙人张庆杰认为，需从三大途径解决，分别是算力建设、基础设施的共享与优化、算法的优化和数据的质量。这其中，算力建设被摆在首要位置。

华为在近年算力建设中颇为积极。据中信证券7月研报，国内现有城市智算中心中，以建设数量计，目前华为占据整体智算中心约79%的市场份额。

除了以量取胜，提升算力集群的能力更为重要。就在2023世界人工智能大会上，华为宣布昇腾AI集群全面升级，集群规模从最初的4000卡集群扩展至16000卡，算力集群迎来“万卡”时代。

华为轮值董事长胡厚崑表示，昇腾AI的集群相当于把AI的算力中心当做一台超级计算机来进行设计，使得昇腾AI集群的性能效率达到10%以上的提升，而且系统稳定性得到十倍以上的提高。

张迪煊在群访中亦对光锥智能透露，早在2018年，华为就判断人工智能会快速发展，并改变过去小模型的开发模式，形成大算力结合大数据生成大模型的模式，所以华为那时候就开始开发算力集群产品。

步入AI时代，已经无法再像单机系统时代那样靠堆芯片拉升算力，而是要系统化重塑算力基建。在扩大巨量算力供给的同时，要解决算力利用率、使用门槛高等问题，最终还要实现算力生态化。

算力集群迎来“万卡”时代

今年ChatGPT引爆算力需求后，硬件端最先火的是GPU，英伟达总市值年内已经上涨了66%，最新为1.05万亿美元。

以英伟达A100为主的GPU成了大模型必备的香饽饽，但仅靠堆卡也无法应对“javascript百模大战”的爆发之势。那么，如何把宝贵的算力资源，发挥到极致?

既然单个服务器已经很难满足计算需求，于是将多个服务器连接成一台“超级计算机”，正在成为当下“算力基建”的主攻方向，这台“超级计算机”就是算力集群。

2019年，华为就发布了Atlas900AI训练集群，当时由数千颗华为自研昇腾910（主要用于训练）AI芯片构成，到今年6月已经支持到8000卡。而在刚刚结束的世界人工智能大会上，华为更是宣布计划今年年底或者明年年初，做到超过16000张卡的集群。

万卡集群是什么概念?

以1750亿参数量的GPT-3模型训练为例，使用8张V100显卡，训练时长预计要36年，512张V100显卡，训练时间接近7个月，而1024张A100的训练时长可以减少到1个月。

按照华为的评估，训练GPT-3python模型，100B的数据量，在8000卡的Atlas900AI集群下需1天即可完成训练，16000卡集群下仅需半天即可完成。

但别看“万卡”算力大、效率高，真正想要用它去训练模型，绝非易事。

正像中国工程院院士高文所说，“有人说全世界能在1000块卡上同时选连一个模型的只有几千人，能在4000块卡上训练的不超过100个人，在10000块卡上训练模型的人数更少了”，在千卡和万卡上训练和推理数据，对于软件规划、资源调度挑战非常大。

首先，万卡量级的训练，对分布式并行训练提出了更高的要求。分布式并行训练是一种高效的机器学习方式，将大规模数据集分成多个部分，再在多个计算节点上并行训练模型。这样可以极大缩短训练时间，提高模型准确性和可靠性。

昇腾算力集群的分布式并行训练，就需要倚仗华为自研的昇思MindSpore AI框架。

昇思MindSpore支持多种模型类型，还开发了一套自动混合并行解决方案，实现数据并行和模型并行的混合并行训练。

相同算力和网络下，这样的双并行策略可实现更大的计算通信比，同时还解决了手动并行架构的现实困难，让大模型开发和调优效率提升。

此外，由于分布式并行训练，每训练出一个结果，需要所有的芯片同步一次，这个过程中，会有出错的概率。这种情况放在万卡规模量级上，就对于稳定性提出更高要求。

“昇腾的可靠性和可用性的设计，可以做到30天长稳的训练，对比业界的最先进3天左右水平，提升了将近10倍性能的稳定性、可用性优势。”张迪煊表示。

算力集群的效率如何提升?

算力集群还不仅仅是规模扩大，效率也需要有很大提升，否则就会出现卡数越多，算力利用率反而下降的问题。

以华为在内蒙古乌兰察布市部署的数千卡规模的AI集群为例，在同等算力下，计算效率能够提升10%以上。

如果按照昇腾的指标，1000卡的算力约300P，千卡就能提升约30P，万卡就能提升约300P。

“300P算力24小时可以处理数十亿张图像、数千万人DNA、10年左右的自动驾驶数据。”一位从事云计算业务的人士向光锥智能表示，提升算力效率，也就降低了计算成本。

如果说从千卡的300P到万卡的3000P还得靠堆卡“大力出奇迹”，那这10%的效率提升，背后就需要更为复杂的系统性升级。

除了整合华为的云、计算、存储、网络、能源综合优势，昇腾算力集群还进行了架构创新。

一台服务器就是一个节点，华为在计算节点层面创造性推出了对等平构架构，突破传统了以CPU为中心的异构计算带来的性能瓶颈，从而提升整个计算的带宽、降低时延，节点性能得到30%的提升。

此外，算力可是用电超级大户，尤其是上百台服务器联合起来，降低能耗也需要同步实现。

计算能力提升，服务器能耗也越来越高，传统风冷已经无法支撑高散热，就亟需解决如何能在政策严格限制PUE（电力使用效率）的情况下，仍保证服务器散热能力的问题。

在几种散热路线中，液冷被认为是主流的解决方案之一。

液冷方案本就比传统风冷方案更省电，昇腾采用了直接把冷夜注入每块芯片的精准供给方式，相比浸没式（流浪地球中放入海底的方案），可以降低日常运维的成本，也减少冷却液泄露污染环境的风险。

“精准供给取决于芯片板卡上都设置传感器、电控阀门，再加上中央控制，可以实现为不同芯片在不同的负荷下，提供精细化冷量输送。”华为计算工作人员向光锥智能介绍。

2021年11月，发改委等部门发布的文件明确指出，新建大型、超大型数据中心PUE低于1.3，而内蒙古、贵州、甘肃、宁夏节点的数据中心的PUE更是要控制在1.2以下。昇腾的算力集群已经实现低于1.15的PUE。

降低算力门槛，要靠生态

“电力是即插即用的，基本上不需要教老百姓怎么用。而算力，即便你提供给企业，很多人是不会用的。”中国工程院院士、中国互联网协会咨询委员会主任邬贺铨表示，现在算力（使用）门槛太高。

一位业内人士也向光锥智编程能表示:“中小企业很难得到训练服务器的技术支持，加上国产软件生态缺失，中小企业也很难自己玩转。”

即便算力集群怎么强大，需求端打不开，也终将会制约整个算力发展。而AI算力能否达到像电力一样的“低门槛”使用标准，生态尤为重要。

这也是为什么英伟达当年遭受华尔街的“白眼”，也要不计成本投入CUDA软件系统的原因。正是CUDA，实现让一个普通学生就可以进行显卡编程，英伟达进而利用软硬件协同，打造生态系统，最大程度扩大了算力供应。

除了英伟达，苹果在实现良好的用户体验方面，更早印证了生态系统的重要性。

当前，华为昇腾已经搭建了一套自主创新的软硬件全栈系统，包括昇腾AI集群系列硬件、异构计算架构CANN、全场景AI框架昇思MindSpore、昇腾应用使能MindX以及一站式开发平台ModelArts等。CANN正是对标英伟达的CUDA + CuDNN的核心软件层。

张迪煊表示，“昇腾AI支持了中国近一半原创大模型的原生创新，也是目前国内唯一完成千亿参数大模型开发并商用的技术路线，各开源的Transformer类大模型实测训练性能，可以达到业界的1.2倍。”

这些背后，则是华为将上述的软件开源、硬件开放。

首先，在基础软件上，昇腾围绕大模型开发、训练、微调、推理等全流程，进行了一系列的开源和支持。

除了已将AI框架昇思MindSpore开源，javascript昇腾还提供了大模型的开发套件，可以支持十几行代码的全流程脚本开发。用张迪煊的话讲，就是“为了让大模型开发做到开箱即用”。

微调是大模型具备行业属性的关键环节，对应用效果起决定性作用。对此，华为昇腾提供了低参微调模块，集成了多种微调算法。张迪煊介绍，包括 LoRA、P-Tuning 等仅需5%的微调参数，可实现全参微调的效果。

此外，针对大模型推理部署难、成本高等一系列的问题，华为昇腾在开发工具链 MindStudio 上集成了自动剪枝、蒸馏、量化工具，“精度损失0.5%的基础上，做到了20倍的模型压缩”张迪煊介绍，推理阶段支持在线分布推理，能够使应用快速上线，推理时延小于50毫秒。

“张迪煊介绍，推理阶段支持在线分布推理，能够使应用快速上线，推理时延小于50毫秒。

硬件方面，华为也对外提供主板、SSD、网卡、RAID卡、Atlas模组和板卡，来支持合作对象的AI硬件产品开发。

基于当前算力供应紧缺的情况，华为昇腾也重点针对“算子和模型”，提出了的迁移、适配的方案。

训推一体化
行业落地最后一公里

在初步搭建算力生态后，能否持续良性运转，最终还要回归到大模型商业化的问题上。

“不作诗，只做事”，华为刚刚发布的大模型盘古3.0，与其他国内大模型一样，落地的重点都放在了“行业”身上。而且盘古大模型已经在天气预测、药物研发和选煤等诸多行业、超过1000个项目中“上岗”。

不过，对于国产大模型整体来说，在深度满足行业需求上，还面临一些问题。

“企业的需求非常具体，比如‘在这堆垃圾里，识别出有价值的金属’，这经过训练的小学生就可以做到，而对于大模型，企业的这种需求就太重了，而且可能最终的效果也不是很好。”企业服务商用友的一位工作人员向光锥智能表示，直接调用通用AI能力，无法满足行业中广泛存在的差异化智能需求。

华为把大模型分成三个层级，L0、L1、L2。L0就是基础通用模型，在基础模型L0的基础上，加上行业数据，混合训练得到的行业大模型是L1，然后再把L1针对具体下游千行百业的细分场景进行一些部署，得到细分场景的任务模型L2。

现在，无论是对于华为还是其他大模型企业，如何从行业大模型L1中快速生产L2模型，还有部署L2模型到端侧、边侧和云侧，成为打通行业应用最后一公里的问题。

针对这最后一公里，昇腾联合科大讯飞、智谱AI、云从等上游的大模型合作对象，提出了“训推一体化”方案。

简单理解，做模型训练就相当于大学学习阶段，推理部署（训练好的模型在特定环境中运行）就是正式上岗，训推一体化就是“边学习边实习”。

通用大模型一般都是基于广泛的公开文献与网络信息来训练，信息混杂，许多专业知识与行业数据积累不足，会导致模型的行业针对性与精准度不够，数据“噪音”过大。同时，又由于行业数据获取难，技术与行业结合难，大模型在行业的落地进展较慢。

训推一体化，支持中心节点将模型下发至企业的边缘节点进行推理，边缘站点再将数据回传至中心，进行算法更新和增量训练，实现自主演进能力。也就是，“学生主动向更适应就业岗位的方向深造”。

这样一来，就保证训练到推理的循php环生产流程不再割裂。并且把发展行业大模型更大的主动权，交到了行业和企业自身，无疑能最大化满足行业的AI应用与开发场景，实现AI基础设施与行业需求深度融合。

相较于中心训练、边缘推理，训推一体化对于中小企业来说，部署成本也会更低，更会加速中小企业加入行业、场景大模型的“培养”。

对于整个算力生态来说，尽快打通这最后一公里，也就意味着被真正激活，才会有可持续的发展。

训推一体化行业落地最后一公里

推荐内容

大模型“暴力计算”时代，昇腾如何突围算力之困？

因税收等原因 苹果在部分国家和地区的App Store应用涨价

魅族折叠屏将发布？相关专利曝光

努比亚Z50S Pro系列手机预计7月上市

195亿美元不要了：富士康官宣放弃印度建厂计划 原因没法说

俞敏洪回应东方甄选App开启直播：公司正常行为 不要过度解读

空姐被甩到天花板 上海飞北京CA1524航班遇严重颠簸：国航回应

红魔8S Pro真机亮相：24G 1Tb新机皇来了

苹果iPad Pro屏幕将升级 OLED面板 明一季度开始试产

OPPO官宣与理想合作：理想全系均支持手表无感车钥匙

BBA老大入伙！奔驰：将采用特斯拉充电标准

敢晒你工位吗？杭州打工人花5万装修3平米工位：网友感慨肯定不会离职

Windows 11认真了！可运行更多安卓APP：性能体验飞起

2023年6月中国销量最高车型出炉：特斯拉Model Y遥遥领先

一加Ace 2 Pro配置曝光：李杰疯狂暗示 新旗舰来了

moto折叠屏压到3999元 卖了10000台

71岁奶奶带祖孙三代自驾川藏线：驾车技术相当娴熟 手动挡也能开

女子体内取出几百颗结石如鱼子酱：胆囊出了问题

荣耀MagicPad现身GeekBench 搭载骁龙888

科大讯飞上半年营收78亿元 净利同比预降71%-80%

Threads注册用户数破亿 仅用5天时间

你被“天价”共享充电宝坑过吗？1 小时起步 4 元，电用完只充了 30%！

传音推出Tecno Camon 20 Premier手机 搭载联发科天玑8050

努比亚Z50S Pro首张拍摄样张公布 效果超越一英寸大底

一加Ace 2 Pro将发布 骁龙8 Gen2旗舰

淘宝直播推出《新星计划》 亿级流量加持

三星Galaxy Tab S9系列曝光 搭载骁龙8 Gen2

秦皇岛突降冰雹砸进海里场面壮观 网友：冰镇海盐饮料

王宝强电影《八角笼中》票房破9亿！豆瓣跌至7.5 75%好评

网信办加大“自媒体”MCN机构管理力度

红米K60 Ultra将于本月发布 配置和外观曝光

年轻人第一款奢侈品 《王者荣耀》首款数字珠宝皮肤今晚发布

热疯了！专家预测：今年全球还将多次打破高温纪录

印度男子靠乞讨坐拥600多万资产：有技巧行乞 日入2千卢比以上

迪士尼回应不让带折叠椅 乐园确实有明确规定

iQOO 11S首销15秒破亿

Sonos与Yeelight达成战略合作 将深度融合声音与照明场景

陪伴10亿人的AI！西湖心辰再获汤姆猫战略投资，打造超高情商通用大模型

快手搜索内测智能问答产品

马斯克称最终目标是实现第9级财富 建立真正的太空文明

小学生开始去胖东来抢座位了：有空调 免费看书

不敢乱用表情包了！因竖大拇指表情：一加拿大商人被罚46万

微软必应吸引近 15 亿用户使用 Bing AI：或再次占据市场主导地位

小学生开始去胖东来抢座位了 家长称方便带孩子

媒体公司AI生成文章引发担忧，编辑和工会抗议缺乏透明度

一项调查发现：超过90%的组织在目前运营中采用AI

扬言毁灭人类的女机器人答记者问 称可与人类和谐共处

Pokémon Go的开发者Niantic在诉讼中被指控“系统性性别偏见”

特斯拉升级引荐奖励政策 最高抵7千

任天堂Switch游戏机6月销量创新高，或将夺得日本市场冠军

消失的她进入2023全球票房榜前十 累计票房已超30亿

做百万用户的一点心得

Evernote 已裁掉大部分美国员工 并将把大部分业务转移到欧洲

谷歌的医疗AI聊天机器人Med-PaLM 2已经在医院进行测试

Unity 首席执行官：人工智能将使游戏开发「更快、更便宜、更好」

Playform AI 调查 500 位艺术家眼中的 AI 生成图像工具：从创意生成到最终作品

做私域的这6个痛点你也有吗？

共享充电宝电用完只充了30% 价格高也被吐槽

B站改革，中长视频或迎来价值重估？

ChatGPT神器Code Interpreter终于开放，到底怎么用？这里有一份保姆级教程

iPhone 15 Pro系列曝光

悬赏一千万的狗已找到 主人只给了5000：网友集体怒了

iPhone 15系列电池容量或显著提升

“全球最热一天”纪录接连被打破：4天上升0.22度、12.5万年来最热

研究称黑巧克力可降低70%抑郁风险：可使人感到愉悦

全部编辑被开除后：知名游戏网站VGtime官网已无法登陆

日本北海道高浓度砒霜泄露：蒸汽喷发高达数十米

vivo Y27 5G手机渲染图曝光：天玑6020芯片、5000mAh电池

郑州狗主人悬赏1000万人民币寻狗：为国家做过巨大贡献

高考裸分639：四川考生拿到空军001号招飞录取通知书

王宝强新片《八角笼中》票房突破8亿大关

私域暴利项目，单群利润850+，小红书女粉实操玩法

历时9年！滇藏铁路丽香段哈巴雪山隧道贯通

官方预约人数已超6万！荣耀Magic V2未发先火

销售顾问播放竞品视频？哈弗副总经理乔心昱：并非系统性销售行为

2026日本亚运会项目敲定：电子竞技成功再次入选

长条天幕 超大竖屏 吉利银河L6更多细节曝光

iPhone 15 Pro外观曝光：远峰蓝配色绝了

训推一体化
行业落地最后一公里

因税收等原因苹果在部分国家和地区的App Store应用涨价

195亿美元不要了：富士康官宣放弃印度建厂计划原因没法说

俞敏洪回应东方甄选App开启直播：公司正常行为不要过度解读

空姐被甩到天花板上海飞北京CA1524航班遇严重颠簸：国航回应

苹果iPad Pro屏幕将升级 OLED面板明一季度开始试产

一加Ace 2 Pro配置曝光：李杰疯狂暗示新旗舰来了

moto折叠屏压到3999元卖了10000台

71岁奶奶带祖孙三代自驾川藏线：驾车技术相当娴熟手动挡也能开

科大讯飞上半年营收78亿元净利同比预降71%-80%

Threads注册用户数破亿仅用5天时间

传音推出Tecno Camon 20 Premier手机搭载联发科天玑8050

努比亚Z50S Pro首张拍摄样张公布效果超越一英寸大底

一加Ace 2 Pro将发布骁龙8 Gen2旗舰

淘宝直播推出《新星计划》亿级流量加持

三星Galaxy Tab S9系列曝光搭载骁龙8 Gen2

秦皇岛突降冰雹砸进海里场面壮观网友：冰镇海盐饮料

红米K60 Ultra将于本月发布配置和外观曝光

年轻人第一款奢侈品《王者荣耀》首款数字珠宝皮肤今晚发布

印度男子靠乞讨坐拥600多万资产：有技巧行乞日入2千卢比以上

迪士尼回应不让带折叠椅乐园确实有明确规定

Sonos与Yeelight达成战略合作将深度融合声音与照明场景

马斯克称最终目标是实现第9级财富建立真正的太空文明

小学生开始去胖东来抢座位了：有空调免费看书

小学生开始去胖东来抢座位了家长称方便带孩子

扬言毁灭人类的女机器人答记者问称可与人类和谐共处

特斯拉升级引荐奖励政策最高抵7千

消失的她进入2023全球票房榜前十累计票房已超30亿

Evernote 已裁掉大部分美国员工并将把大部分业务转移到欧洲

悬赏一千万的狗已找到主人只给了5000：网友集体怒了

长条天幕超大竖屏吉利银河L6更多细节曝光

游泳爱好者横渡长江影响航道货船女船长怒怼：你们不要命了

销量暴跌近七成被称作“国民神车”的五菱MINI EV为啥卖不动了？

世界单体最大“盐光互补”项目并网发电可满足150万户家庭一年用电

世界第一！上半年全国机动车达4.26亿辆驾驶员超5亿

iPad Pro拥抱OLED：明年初量产包含11和13英寸两种尺寸

蚂蚁集团致力弥合数字鸿沟推多个AI无障碍创新服务

家长承诺奖千元却又反悔只因要买游戏机？这是小学生最讨厌的父母行为

夫妇中3亿7年后各自和新人住豪宅网友唏嘘：果然有钱可以摧毁婚姻

大模型疯狂内卷百模大战正式开打！华为：盘古没时间聊天不解决问题没意义

蚂蚁集团完成整改后启动股份回购对应估值约5671亿元

热爆了！河南人被正式确诊为红孩儿最高温达44.1℃

河北河南山东40度高温连成片：多地超43度大家注意预防中暑

荣耀MagicPad真机曝光比iPad还大

“中看又中用”宝骏云朵更多细节曝光将与7月底正式亮相

车顶维权女车主诉特斯拉案将二审将于7月21日开庭

华为张平安：盘古大模型不写诗只做事

腾讯云宣布升级 MaaS 平台将行业大模型应用到金融风控、同传翻译等新场景

科学家:地球正处12.5万年来最热期但也将是未来十年最凉快的一年

欧盟拟定AI法案引发部分企业恐慌因监管太严、罚款太重

网红大猩猩和小女孩合影一套商业化流程太6 果然进化就要上班

罗永浩曲线上市成功去年营业收入4.26亿元

西安人被正式确诊为沈眉庄网友：准备在家躺平了