汽车
中华网汽车全部文章 > 行业 > 从1920TPS到2400TPS,华为云Tokens服务全面接入384超节点

从1920TPS到2400TPS,华为云Tokens服务全面接入384超节点

2025 年 08 月 28 日 11 : 17 来源:中华网汽车 编辑:邱添
分享: 微信 微博
华为云积累了大量模型性能优化、效果调优的技术和能力,从而实现“源于开源,高于开源”,让更多大模型可以在昇腾云上跑得更快更好
[ 中华网 行业 ]

2025年8月27日,在第四届828 B2B企业节开幕式上,华为云宣布其Tokens服务全面接入CloudMatrix384超节点,通过xDeepServe架构创新,单芯片最高可实现2400TPS、50msTPOT的超高吞吐、低时延的性能,超过业界水平。

发挥“大杂烩”优势,以系统能力打造先进算力

过去18个月,中国AI算力需求呈现指数级增长。数据显示,2024年初中国日均Token的消耗量为1000亿,截至今年6月底,日均Token消耗量已突破30万亿,1年半的时间增长了300多倍,反映了我国人工智能应用规模快速增长,也对算力基础设施的需求提出了更大的挑战。

在以往按卡时计费的基础上,今年3月,华为云正式推出了基于MaaS的Tokens服务。针对不同应用、不同场景的性能和时延要求,还提供了在线版、进线版、离线版乃至尊享版等多种服务规格,为大模型、Agent智能体等AI工具提供了更为灵活、便捷、低成本的先进算力。

而这一次,华为云的Tokens服务正式接入CloudMatrix384,并通过384原生的xDeepServe框架再次实现了吞吐量的突破,从年初的1920TPS提升至2400TPS,TPOT仅为50ms。

从1920TPS到2400TPS,华为云Tokens服务全面接入384超节点

大算力的构建不是单点突破,而是一个从硬件到软件、从算子到存储、从推理框架到超节点的全栈创新,充分依托了华为的“大杂烩”能力。

首先,CloudMatrix384 超节点以全新的计算架构创新,突破性能瓶颈,构筑稳固澎湃的算力根基; CANN昇腾硬件使能,优化算子与高效通信策略,让云端的算力能够以最高效的方式被调用和组合;EMS弹性内存存储打破AI内存墙,突破性地实现“以存强算”, 彻底释放了每一颗芯片的算力;xDeepServe 分布式推理框架则以极致分离架构Transfomerless让超节点释放出更高效算力。

“拆掉”Transformer,xDeepServe全面激发算力潜能

作为CloudMatrix384 超节点的原生服务,xDeepServe以Transformerless 的极致分离架构,把MoE大模型拆成可独立伸缩的 Attention、FFN、Expert三个微模块,相当于在一台CloudMatrix384上把“大模型”拆成“积木”,并分派到不同的NPU上同步处理任务。之后,再用基于内存语义的微秒级XCCL通信库与FlowServe 自研推理引擎把它们重新拼成一个超高吞吐的LLM服务平台,即Tokens的“超高速流水线”。通过xDeepServe不断调优,最终实现了从非超节点单卡吞吐600tokens/s至超节点单卡吞吐2400tokens/s的提升。

作为硬件加速计算的中间层,CANN包含多个算子库和和XCCL这种高性能通信库等组件,共同支撑AI模型的高效运行。其中,XCCL作为专为超节点上的大语言模型(LLM)服务而量身打造的高性能通信库,能够充分发挥CloudMatrix384扩展后的UB互联架构(UB fabric)的全部潜力,为 Transformerless的全面分离奠定了带宽与时延双重硬底座。

而作为被重构的“去中心”式分布式引擎,FlowServe把CloudMatrix384 切成完全自治的 DP 小组,每个小组自带 Tokenizer、执行器、RTC 缓存与网络栈,完全自给自足,做到千卡并发也不“拥堵”。

目前,xDeepServe已实现MA分离,而下一步,将把Attention、MoE、Decode全部改成自由流动的数据流,并把同样的拼图方法复制到多台超节点,让推理吞吐像铺轨一样线性延伸,最终或将视线吞吐量的更大突破,让每块 NPU 都高效运作,芯片永不排队,推理永不塞车。

聚焦主流大模型,不断提升模型性能

目前,华为云MaaS服务已支持DeepSeek、Kimi、Qwen、Pangu、SDXL、Wan等主流大模型及versatile、Dify、扣子等主流Agent平台。

华为云积累了大量模型性能优化、效果调优的技术和能力,从而实现“源于开源,高于开源”,让更多大模型可以在昇腾云上跑得更快更好。以文生图大模型来说,在轻微损失画质的情况下,通过Int8量化、旋转位置编码融合算子等方式,在在华为云MaaS平台实现了2倍于业界主流平台的出图速度,最大尺寸支持2K×2K。而在文生视频大模型上,不仅通过量化方式来提速,还通过通算并行等方式,降低延迟与显存占用,大幅提升视频生成速度,相较于友商实现了3.5倍的性能提升。华为云Tokens服务在性能、模型适配、效果调优方面的基础,也让更多企业能够快速开发和构建AI Agent。

而在应用层,华为云已与超过100家伙伴携手深入行业场景,共建丰富的Agent,在调研分析、内容创作、智慧办公、智能运维等领域解决产业难题,让企业更便捷地拥抱AI创新,加速智能化。

如基于MaaS平台推出的今日人才数智员工解决方案,集成了先进的自然语言处理、机器学习和深度学习技术,能实现与用户的智能交互和任务处理,显著提升服务效率与客户满意度;而北京方寸无忧科技开发的无忧智慧公文解决方案可以提升公文处理效能,实现政企办公智能化转型。

以Token为动力的智能社会已经到来,而华为云将以系统级创新能力和全新的Tokens服务构筑先进算力,助力各行各业加速落地AI。


本文内容为中华网·汽车( auto.china.com )编辑或翻译,转载请务必注明来源。
分享: 微信 微博

发表我的评论

0/1000

用户评论

相关文章

博世X阿里云,智能座舱接入通义大模型

博世X阿里云,智能座舱接入通义大模型

博世AI智能座舱技术原型由博世智能驾控事业部以通义千问和通义万相为基础,结合阿里云百炼大模型服务平台和磐曦数字人技术打造而成
2025-06-18 09:51:43 ·
博世X阿里云:智能座舱接入通义大模型!

博世X阿里云:智能座舱接入通义大模型!

博世AI智能座舱技术原型由博世智能驾控事业部以通义千问和通义万相为基础,结合阿里云百炼大模型服务平台和磐曦数字人技术打造而成。
2025-06-13 15:50:11 ·
从品牌到产品全面向新能源科技企业转型的“新传祺”

从品牌到产品全面向新能源科技企业转型的“新传祺”

2024年是广汽传祺技术革新大年,发布了I-GTEC2.0,针对底盘、三电、智能、平台等技术进行全维度升级,推出了全栈自研的GMC400超级混动技术,还联合华为创新计划推出并实施
2024-12-24 13:54:08 ·
华为超充上珠峰 318川藏超充绿廊全线贯通 开启绿色出行新篇章

华为超充上珠峰 318川藏超充绿廊全线贯通 开启绿色出行新篇章

9月24日,华为超充上珠峰 ·318川藏超充绿廊全线贯通发布会在拉萨成功举办。西藏自治区携手四川省坚定不移地推动高质量发展,进一步深化两地合作,将各项工作迅速转化为发展成效,并力争在稳产业、促消费、惠民生等领域大幅提速
2024-09-25 11:31:24 ·
华为超充上珠峰!让有路的地方就有高质量充电

华为超充上珠峰!让有路的地方就有高质量充电

9月3日,珠峰超充站发布会暨超充联盟正式商用上线仪式在珠峰公园北大门成功举办。西藏可往新能源科技有限公司、重庆愉秒充数字能源科技有限公司、广汽传祺汽车有限公司、阿维塔科技、赛力斯汽车等合作伙伴共同参会。
2024-09-04 16:40:20 ·
华为HMS for Car携手四维图新推进服务出海

华为HMS for Car携手四维图新推进服务出海

6月22日,在华为开发者大会2024(HDC 2024)“华为终端云服务全面合作”签约仪式上,四维图新与华为终端云服务签署全面合作协议,
2024-06-25 18:19:28 ·
华为云发布乌兰察布汽车专区和自动驾驶开发平台

华为云发布乌兰察布汽车专区和自动驾驶开发平台

主题为“云上加速,智行万里”的华为云智能驾驶创新峰会在内蒙古自治区乌兰察布召开
2023-07-21 14:30:14 · 华为云
海南:到2030年禁售燃油车 新能源占比超45%

海南:到2030年禁售燃油车 新能源占比超45%

近日,海南省人民政府印发《海南省碳达峰实施方案》。方案提出,到2025年,公共服务领域和社会运营领域新增和更换车辆使用清洁能源比例达100%。
2022-08-23 08:45:00 · 海南禁售燃油车新能源车
小马智行自动驾驶出行服务接入如祺出行平台

小马智行自动驾驶出行服务接入如祺出行平台

小马智行自动驾驶出行服务(Robotaxi)正式接入如祺出行平台,用户通过如祺出行App就有机会打到一辆小马智行自动驾驶车辆。
转型节点逐步清晰 通用在华详细规划

转型节点逐步清晰 通用在华详细规划

通用汽车如何向电动化和自动化领域转型,在中国会如何推进?柏历给出了详细、具体的产品投放时间节点、技术研发进度等关键信息的回答。
2021-04-07 10:52:24 · 通用规划新车
小鹏超充实现广州白云国际机场终身免费充电服务

小鹏超充实现广州白云国际机场终身免费充电服务

12月15日,小鹏超充宣布正式进驻广州白云国际机场(以下简称白云机场),成为国内首个在机场接驳点设立超充站的新造车企业。届时,前往白云机场的小鹏汽车车主,可在T1航站楼P5停车场和T2航站楼P6停车场指定的超充桩免费充电,并可享受免费停车1小时服务。
2020-12-16 13:26:35 · 小鹏汽车小鹏超充站
从科技到服务,耀出行致力于提升用户出行体验

从科技到服务,耀出行致力于提升用户出行体验

10月21日,中国信息协会用户联络中心分会主办的“用户观察·2020(第三届)汽车行业服务创新论坛”在广州举行。会议旨在探讨汽车行业服务新思路,聚焦“数字经济时代的服务变革”。梅赛德斯-奔驰品质出行|耀出行广州分公司总经理甘小龙作为高品质出行服务企业代表,作了题为“如何在出行领域提升和改善用户体验”的演讲,向与会嘉宾介绍了耀出行卓越服务的探索与实践。
2020-10-26 11:24:44 ·
HMS 又有动作了?华为正式推出HMS for Car智慧车载云服务解决方案

HMS 又有动作了?华为正式推出HMS for Car智慧车载云服务解决方案

以“探索更美好的数字车生活”为主题的HMS for Car智慧出行分论坛在华为大学召开。
2020-09-16 11:58:24 ·
有车云加油优惠 无接触服务受青睐

有车云加油优惠 无接触服务受青睐

​有车云车主权益卡——加油优惠能省钱,一万座加油站聚相连。自今年的疫情防控进入常态化之后,各地出行数量都在增加,各大公司复工以后,很多职工选择开车上下班减少接触。随之而来的改变是:道路上来往车辆增加,加油站的生意红火起来,一派繁荣的景象。但很多车主也在想“人流激增的加油站,也增加了许多陌生接触,该如何保护自己呢?”
2020-08-03 16:38:04 · 有车云
还有一天将全面到店 国产特斯拉Model 3明年一季度交付

还有一天将全面到店 国产特斯拉Model 3明年一季度交付

近日,特斯拉官方发消息称,国产标准续航升级版Model 3将于11月22日全面到店,消费者可以提前预约试乘试驾活动。据悉,新车标配基础版辅助驾驶功能,起售价为35.58万元,而这台国产标准续航升级版Model 3车型也将在即将开幕的广州车展正式亮相。
询底价
关闭