携手UALink,阿里云磐久AI Infra 2.0服务器亮相2024 OCP全球峰会
10月15日-17日,一年一度的开放计算全球峰会(OCP Global Summit)在美国加州圣何塞(San Jose)召开,本次峰会以“从创新到影响力(From Ideas to Impact")”为主题盛大开幕,吸引全球7000多位基础设施软硬件技术和应用领域的专业人士参会。作为全球最具影响力的的基础设施和开放计算领域标志性盛会,特别是在今年OCP基金会重磅宣布其人工智能开放系统战略计划后,2024 OCP全球峰会上专门设置人工智能特别关注议程(Special Focus Tracks),重点推动AI基础设施领域的技术生态建设。
阿里云服务器研发资深总监文芳志受邀和UALink联盟主席Kurtis Bowman联合发表了题为《UALink: Pioneering the AI Accelerator Revolution》的演讲,重点阐述了AI服务器Scale UP互连技术领域的发展趋势,UALink标准的路线图,UALink联盟和ALink System产业生态未来的合作潜力,以及阿里云磐久 AI Infra 2.0服务器的落地实践思路。
行业领先的AI芯片、服务器和CSP厂商联合发起的UALink协议,将是一项彻底改变AI服务器Scale UP互连技术生态系统的行业新标准。相比较超级以太网联盟 (UEC) 的协议标准专注于Scale out扩展能力,UALink协议凭借高性能内存语义访问的原生支持、显存共享,支持Switch组网模式,以及超高带宽、超低时延能力等性能优势,正在迅速构建起一个AI服务器Scale UP互连技术的超级开放生态。按照计划,UALink联盟将于10月底正式成立并开始吸纳成员加入,并在年底对外发布第一版UALink spec。
UALink标准作为目前最具潜力的AI服务器Scale UP互连开放标准,如何在业界特别是在中国市场落地实践是一个巨大挑战,ALink System(ALS)产业生态应运而生。ALS提供具备性能竞争力和统一标准的互连系统,包括ALS-D数据面和ALS-M管控面两个主要组成部分,为AI训推场景提供丰富的能力和特性支持。
ALS-D将支持UALink国际标准,形成极具性能竞争力的数据面方案。当前以推理和训练场景为主的AI应用,在Scale Up网络上具有并行切分算法、大显存共享、GPU超多核内存语义编程等多种显著特点。ALS-D数据面互连采用UALink协议,除了原生支持高性能内存语义访问、显存共享,支持Switch组网模式,性能上具备超高带宽、超低时延能力外,还增加定义了在网计算等特性。
ALS-M可以为不同芯片方案提供标准化的接入方案,符合规范的设备均可灵活接入应用方系统。无论是对开放生态还是厂商专有互连协议,ALS使用统一的软件接口。同时,ALS-M为云计算等集群管理场景,提供单租、多租等灵活和弹性的配置能力。
正是遵循ALink System的规范,阿里云自主设计了面向下一代超大规模AI集群的磐久AI Infra 2.0服务器,贯穿了开放生态、高能效、高性能和高可用的设计理念。AI Infra 2.0服务器开放性地定义了AI计算节点和Scale Up/Scale Out互连系统,可以在统一的硬件架构下支持业界主流AI方案,引领AI领域的“一云多芯”。
互连系统ALink System全面兼容国际标准UALink生态,可以与行业伙伴开放共建超高性能、超大规模的Scale UP集群互连能力,一级互连64-80个节点,二级互连可达2000以上节点,提供了PB级共享显存和TB级互连带宽。
AI计算节点内集成阿里自研CIPU 3.0芯片,既能支持高带宽大规模AI服务器实现Scale Out网络扩展,又能兼顾云网络弹性、安全的要求。
硬件工程方面,AI Infra 2.0服务器单机柜可以支持最大80个AI计算节点,业界密度最高;在业界率先采用400V PSU,单体供电效率可达98%,整体供电效率提高2%。在散热设计上,机柜级液冷方案可以根据实际负载动态调整CDU冷却能力来降低能耗,单柜冷却系统节能30%。最后,在运维管理上,全新的CableCartridge后维护设计,支持全盲插,零理线易运维、零误操作,维护效率提升50%。
可靠性方面,AI Infra 2.0服务器支持弹性节点、智能路由、高可靠供电、分布式CDU等技术,可以实时监控、探测各种硬件故障并自愈,硬件的故障域也缩减到节点级。
在ALink System产业生态建设上,阿里云一贯秉持开放合作的策略,推动互连技术领域的发展和繁荣。自今年9月ALink System产业生态在开放数据中心大会上正式发布以来,目前已有20多家AI芯片、互连芯片、服务器整机硬件和IP设计厂商加入,成员单位已就相关协议标准制定和实行路径选择展开交流。
除了积极拥抱UALink和牵头成立ALink System产业生态,阿里云还是OCP、CXL、UCIe和UEC等多个互连技术行业组织的创始成员或技术委员会成员,并用实际行动支持相关开放互连技术标准的制定和落地。
- Elon Musk Bashed For Walt Disney Market Manipulation Attempt
- Rubedo Life Sciences完成了由Khosla Ventures和Ahren Innovation Capital领投的4000万美元A轮融资
- 探舟数字与周村古商城景区携手签署AI导游导览合作协议
- 云智安·菱睿系列SN-40全球首发!中科美菱助力生物样本库智能化升级
- 花旗私人银行发布最新报告 亚太家族办公室加大投资股票及固定收益 看好私募股权前景
- 蔡和平10种乐器走进校园演奏10首名曲,并表演孙悟空72变
- Tsuno Group成功开发了高剂量阿魏酸稳定配方并申请了专利,阿魏酸是一种罕见的天然植物源成分,具有吸收紫外线的功能
- 平安养老险安徽蚌埠中支:践行普惠金融,服务乡村振兴
- 绿城服务集团联合杭州舒辰床垫助力健康睡眠,公益除螨活动全面启动!
- Quectel因对物联网安全的卓越贡献而荣获著名的Fortress网络安全奖
推荐
- 一个“江浙沪人家的孩子已经不卷学习了”的新闻引发议论纷纷 星标★ 来源:桌子的生活观(ID:zzdshg) 没 资讯
- 私域反哺公域一周带火一家店! 三四线城市奶茶品牌茶尖尖两年时间做到GMV 资讯
- 抖音直播“新红人”进攻本地生活领域 不难看出,抖音本地生活正借由直播向本地生活 资讯
- 产业数字化 为何需要一朵实体云? 改革开放前,国内供应链主要依靠指标拉动,其逻 资讯
- 透过数据看城乡居民医保“含金量” 缴费标准是否合理? 记者从国家医保局了解到,近期,全国大部分地区 资讯
- 大家一起关注新疆乌什7.1级地震救援见闻 看到热气腾腾的抓饭马上就要出锅、村里大家 资讯
- 国足13次出战亚洲杯首次小组赛0进球 北京时间1月23日消息,2023亚洲杯小组 资讯
- 看新东方创始人俞敏洪如何回应董宇辉新号分流的? (来源:中国证券报) 东方甄选净利润大幅下滑 资讯
- 奥运冠军刘翔更新社交账号晒出近照 时隔473天更新动态! 2月20日凌晨2点,奥运冠军刘翔更新社交账号晒 资讯
- 周星驰新片《少林女足》在台湾省举办海选,吸引了不少素人和足球爱好者前来参加 周星驰新片《少林女足》在台湾省举办海选,吸 资讯