浪潮信息元脑R1服务器支持开源框架SGLang,单机DeepSeek 671B并发过千
北京2025年2月26日 /美通社/ -- 浪潮信息元脑R1推理服务器已完成对开源框架SGLang最新版本的深度适配,成功实现在单机高性能运行DeepSeek R1 671B模型时可最大支持超过1000路的用户并发访问。
DeepSeek R1参数量达到6710亿,采用了MLA注意力机制和共享专家、路由专家共同组成的混合专家(MoE)架构,其创新的模型架构也带来了在推理服务上的性能挑战。浪潮信息团队从AI服务器和推理框架入手开展了协同优化工作。
元脑R1推理服务器NF5688G7原生搭载FP8计算引擎,针对DeepSeek R1 671B模型部署速度快且无精度损失,1128GB HBM3e高速显存满足671B模型 FP8精度下不低于800GB显存容量的需求,单机支持全量模型推理情况下,仍保留充足的KV缓存空间。显存带宽高达4.8TB/s,完美契合DeepSeek R1模型"短输入长输出、显存带宽敏感"的技术特征,在推理解码阶段可实现极致加速。在通信方面,GPU P2P带宽达900GB/s,保障单机部署张量并行最佳通讯性能。
SGLang是新兴的开源推理框架项目,其得到活跃的社区支持,并在工业界获得了广泛应用。SGlang的核心特性包括:快速的后端运行时、灵活的前端语言、广泛的模型支持等。尤其值得关注的是,SGLang针对MLA注意力机制开展了针对性的工程优化,并在框架上对MoE架构的推理做了优化设计。SGLang也是最早适配DeepSeek v3和R1的优选推理框架之一。
目前,元脑R1推理服务器 NF5688G7已完成SGLang最新版本 0.4.3的适配优化工作。通过硬件调优、算子优化、混合并行、多token预测等多方面的工程实践,在元脑R1推理服务器 NF5688G7上运行DeepSeek 671B R1模型,成功实现了单用户解码最高33 tokens/s及最大用户并发超1000的优异性能表现。
单路并发性能测试日志,根据TPOT换算用户解码性能为33.3 tokens/s
DeepSeek R1 671B是一个稀疏度较高的MoE架构模型,具有模型参数量大、计算量小的特点。和Dense模型相比,在满足KV cache的显存占用的前提下,可以支持更高的并发访问需求。实测数据表明,基于单台NF5688G7,在使用DeepSeek R1进行带思维链深度思考的短输入长输出的问答场景下,使用100/1000作为输入输出长度,实测在单个用户并发时的解码性能为33.3tokens/s;在16个用户并发时,每个用户有约20 tokens/s的解码性能;在64个用户并发时,每个用户有约10.4 tokens/s的解码性能。而在使用1024个用户并发访问的极限测试时,单台NF5688G7实现了3975.76 tokens/s的吞吐性能,可以满足超高并发场景下多用户使用需求。
1024路并发性能测试日志,测试使用了1000/1000的输入输出长度,实现了3975.76 tokens/s的总设备吞吐
浪潮信息团队正与业内团队密切合作,在计算架构、算子调优、并行策略、框架适配、调度管理等多个方面持续发力,旨在为用户带来高性能、高效稳定、性价比高的DeepSeek大模型部署服务方案,助力大模型快速落地应用。
浪潮信息是全球领先的IT基础设施产品、方案和服务提供商,通过发展新一代以系统为核心的计算架构,打造开放、多元、绿色的元脑智算产品和方案。浪潮信息致力于AI计算平台、资源平台和算法平台的研发创新,并通过元脑生态携手领先伙伴,加速人工智能的创新和应用落地。
- Agility:随着风险迫近,物流高管称其已优化供应链布局
- 深圳康莱德酒店胤呈中餐厅以春馔开启味觉灵感之旅
- 西嘉进博"首秀"新品在华发布,持续看好中国助听市场发展前景
- 武汉SKP FILA三店齐开,意式运动美学零售空间彰显"顶级渠道"力
- 百世集团引领职教出海,助力全球物流人才发展
- Sabine Nitzsche女士被任命为TÜV南德新任首席财务官
- 安徽华晟获颁TÜV南德大中华区首张 IEC TS 62994评价证书
- 在闹市滑雪 HALTI限时快闪店带来"开板"乐趣
- 拯救二郎腿!4款山业脚踏深度测评
- 新时代非遗文化传播大使:罗宗英
- 超 150 万台!禾赛获得长安汽车旗下多个品牌独家量产定点
- 晨光和茑屋书店“梦幻联动”,中国文具之光亮相日本最大文具展
- 勃林格殷格翰携手赭石生医,开发晚期肝病新型再生疗法
- 先健科技IBS®冠脉支架III期临床一年随访:安全和有效性获进一步确认
- 派能科技获颁SGS首张欧盟电池法规合格评定声明书
- MediaGo用深度学习升级智能出价,帮助广告主获得最大转化
- 媒体观察:IBM:用生成式AI解数据安全之急
- 迪士尼旗下各大品牌未来内容计划亮相2024年D23迪士尼全球粉丝大会
- 千年商港 幸福温州-2024第五届温州国际设计双年展征集进行中
- TÜV南德授予协鑫科技组织碳核查声明
- Airbnb爱彼迎联合万事达卡发起澳大利亚「向网之旅」
- 零跑T03和C10车型在TÜV莱茵助力下获UN-R155及UN-R156 VTA证书
- Supermicro为企业、零售和边缘服务器解决方案提供人工智能驱动的功能
- 美赞臣真实有效配方共筑保护力长城 推出科学防敏亲舒Pro新品系列
- 福寿园入围达沃斯世界品牌峰会“2024世界创新品牌500强”
- 2024澳加美联国际教育论坛圆满落幕
- TÜV南德授予大众安徽组织温室气体核查声明及组织碳中和达成核查声明
- Cognizant 和 Google Cloud 扩大 AI 合作伙伴关系以提高软件开发效率
- 台达参与2024两岸企业家峰会年会 智能制造赋能可持续发展
- 沙特即将迎来旅游热,海昌海洋公园全力推进沙特首个大型海洋公园落地
推荐
-
为何娃哈哈纯净水线上会卖断货? 随着网络上关于娃哈哈和农夫山泉之争的持续 财商
-
我们时常把创业想得太过简单,认为获得成功轻而易举 我们时常把创业想得太过简单,认为获得成功 财商
-
日股盘中再破34年新高,今年还涨得动吗? 今年日股开局强势,1月5日以来开启连涨行情,日 财商
-
春节将至,抢票再次成为广大网友关注的热门话题 春节将至,抢票再次成为广大网友关注的热门话 财商
-
广东省药监局调研恒昌医药集团,聚焦药品流通产业高质量发展 日前,广东省药品监督管理局党组成员、副 财商
-
供应“安全感”超过红海“危机感”?欧洲天然气价格大跌 虽然冬季极寒天气来临,而且卡塔尔似乎已经暂 财商
-
娃哈哈这艘商业巨舰将驶向何方,我们试目以待 2月25日,娃哈哈集团在官网发布讣告,娃哈哈创 财商