CCF信息存储技术专委会走进浪潮信息 共话大模型时代的存储创新之道

北京2024年6月7日 /美通社/ -- 近日,中国计算机学会信息存储技术专业委员会(CCF信息存储技术专委会)首场“走进企业”活动启动,来自CCF信息存储技术专委会、清华大学、北京大学、华中科技大学、华东师范大学、上海交通大学、上海理工大学等单位的十余位存储领域专家、学者走进浪潮信息,在“大模型时代数据中心存储技术创新和应用”的会议主题下,分别就“以数据为中心的存储技术协同创新”和“大模型新应用的存储技术挑战与探索”两个核心议题,共同探讨了在存储架构创新、近数据计算、多协议融合互通、GPU直通存储、故障预测等多个领域的前沿技术创新和产业洞察。

CCF信息存储技术专委会走进浪潮信息
CCF信息存储技术专委会走进浪潮信息

“以数据为中心”加速到来,存储架构亟待创新

随着数字化、智能化的加速发展,社会产生的数据量呈现出爆炸式增长。IDC报告显示,中国数据量规模将从2022年的23.88ZB增长至2027年的76.6ZB,年均增长速度(CAGR)达到26.3%,为全球第一。同期,全球数据量规模预计增长一倍以上,到2027年将达到284.3ZB,年均增长速度(CAGR)达到22.6%。当数据变成重要的生产要素,其价值释放正加速“以数据为中心”的到来,这对存储架构创新提出了新的要求。

浪潮信息存储产品线首席架构师孙斌认为,作为数据的主要载体,数据中心呈现出大型集约化、边缘分散化的发展趋势,未来数据中心将实现“人机物”三元智联融合,提供全面服务且资源利用率趋向最优。但是,随着数据中心应用多样化与计算多元化的叠加,亟需一套新型存储架构来实现均衡全能存储服务,通过融合软硬件协同设计,实现介质、软件和数据的分离,从而可组合可共享,最终灵活支撑全场景综合负载。

北京大学助理教授张杰认为,存储架构创新将是一个长期性、持续性工程,最终是要解决所谓的“存储墙”问题。以数据为中心要求计算围着数据转,以减小数据搬运带来的性能瓶颈以及功耗,但冯·诺依曼架构是一个以计算为中心的架构,数据搬运已然成为当下大数据、大规模应用所面临的最大的问题。

华中科技大学的刘海坤教授提出,基于新型高速互连总线CXL实现单机内存扩展和分布式内存扩展,可以较好地解决大规模数据处理特别是大模型应用面临的“内存墙”问题,可能颠覆未来数据中心架构,推动存算融合向存算分离演进,同时使能以数据为中心的CPU、GPU、FPGA间的对等计算。但是,刘海坤也指出,目前CXL总线面临体系结构、操作系统、编程模型等多方面的挑战,产业技术生态有待进一步完善。

探讨大模型时代数据中心存储技术创新和应用
探讨大模型时代数据中心存储技术创新和应用

Storage for AI,AI for Storage,推动大模型与存储的双向进化

如果说数据中心是数据的“集散地”,那么大模型就是数据的“掘金场”。随着大语言模型(LLM)以及生成式AI的飞速发展,数据规模和质量对模型精度的价值日趋凸显,这也推动存储技术成为提升人工智能生产力的关键环节,直接关乎到人工智能整体落地水平。同时,人工智能技术的进步,也正向回馈于存储技术创新之中,带动了智能化存储技术的发展。Storage for AI,AI for Storage,大模型与存储呈现出双向进化。

大模型开发通常涵盖数据归集、数据预处理、模型训练、应用推理几个流程阶段,其中跨设备、跨中心的数据准备往往耗时数周,同时大模型训练过程中存在海量的小文件读取,小文件的读写性能较差,进一步拉长了训练周期,对存储系统的容量、性能、稳定性等方面都带来了巨大挑战。

清华大学副教授陆游游表示,从大模型训练过程中反映出的数据特征来看,小文件读取和带宽的优化是非常重要的。同时随着模型参数量提升,对内存、HBM显存以及CXL远端内存等多层次内存的管理也变得更加重要,需要与计算更好地协同。此外,向量存储、参数存储等新兴的存储方式也需要予以关注。

浪潮信息一直深耕面向AIGC场景的新一代存储平台。通过全局缓存技术,突破多模态小文件训练瓶颈,创新性提出多协议融合互通技术,实现数据免迁移,构建全局文件管理平台,统一多源异构存储,数据管理更加便捷,引入GPU直通存储技术,大大缩短AI训练I/O路径,提高大模型训练效率。此外,浪潮信息也积极地围绕CXL2.0,QLC,PCIe Gen 5等新型硬件和协议等进行全面的适配和优化,提供更强大的存储性能,助力大模型系统创新及AI应用落地。

而在AI for Storage领域,人工智能在数据恢复、故障预测等场景中也体现出越来越高的技术价值。上海交通大学教授吴晨涛分享了分布式机器学习高可靠数据恢复机制的研究,包括分布式学习过程中硬盘故障恢复加速的研究以及故障和繁忙节点的混合全局图恢复方法;华东师范大学教授石亮分享了面向大规模存储场景的SSD故障预测及部署优化技术研究,包括差异化的机器学习SSD故障预测研究和基于预测备份的RAID快速恢复技术,主要针对当前大规模闪存存储系统故障预测性能不佳、故障恢复机制占用计算资源且速度慢的问题做了优化。

浪潮信息作为本次活动的东道主,存储产品线总经理李辉对各位专家的到来表示热烈欢迎,指出面向数据产业创新与大模型应用的存储需求,业界与学界的深度对接和交流将进一步拓展创新的边界。CCF信息存储技术专委会走进浪潮信息活动的成功举办,将有助于加快信息存储领域的学术创新到产业落地的转化,推动数据成为新质生产力的优质生产要素。