大模型领域普遍存在规模化定律,即大模型的性能深受模型参数量、数据集大小以及训练算力规模三要素的影响。生成式AI的运行主要基于深度学习原理,其发展离不开海量数据信息的投入。面对智算集群目前存在的可用度、推理体验等问题,华为推出业界首款AI存储——OceanStor A800,致力于成为支撑智算集群发展的关键基座。
智算集群为千行万业发展新质生产力夯基筑石
近年来,智能计算已经成为推动社会发展进步的重要力量。从计算机视觉到自然语言处理、多模态等基础大模型研究,再到面向自动驾驶、生命科学等重点行业的专用大模型研发,各行各业都展示出对智能算力的巨大需求。
中国移动抢抓数字经济发展新机遇,立足自身资源禀赋和能力优势,以算为中心、以网为根基、以存为引擎,打造多种信息技术深度融合、可提供一体化服务的算力网络,对内满足“九天”人工智能大模型训练,对外面向千行万业提供一站式智能计算服务,加快发展新质生产力。
借助智算集群提供的服务,运营商行业加速数智化转型,可汇聚数百万个基站、数亿用户以及数百PB级历史数据,实现L4级网络自动驾驶;金融行业可对信贷申请进行快速处理,时间从原来的数天缩短到一分钟,甚至最快一秒钟即可完成审批。
华为AI数据湖方案助力中国移动智算中心构建坚实底座
中国移动智算中心(哈尔滨)节点充分利用中国移动(哈尔滨)数据中心软硬件优势、自然冷源地域优势,提前4个月攻坚完成3千多平方米机房的供电、制冷、建筑结构等重大调整改造,涉及5000多台设备、7万多根线缆、20多万个端口、千万级精密器件的大规模集群复杂施工。在30多个单位、千余人的协同支持下,历经7个月时间,超万卡规模智算集群建成,存力规模达150PB。
在智能融合分级存储集群的设计初期,中国移动面临几大挑战:在吞吐性能方面,万亿级参数大模型需要至少10TB/秒的吞吐量,而传统存储系统难以满足这一要求;在多协议处理方面,数据从归集到处理再到训练,涉及对象存储和文件存储的频繁转换,这对传统存储架构是一个巨大挑战;在数据管理效率方面,随着数据的动态变化,热数据与冷数据需要按需流动,传统系统主要依赖人工干预,效率较低。
为应对上述挑战,华为为中国移动提供AI数据湖解决方案,构建智算中心数据底座,实现聚合带宽8TB/秒,IOPS(每秒读写次数)达2.3亿。受益于AI数据湖高可靠、高性能等特点,大幅降低集群故障概率,缩短了断点续训时间,使得90天单训练周期内GPU的等待时间从7天减少到2天。
在训练方面使智算集群实现从“堆算力”到“提效率”的转化
华为推出AI数据湖解决方案,基于OceanStor AI存储和OceanStor Pacific分布式存储的诸多技术创新,可支撑千亿/万亿级参数大模型高效训练与推理。
大模型训练系统对算力需求很大,计算密度空前,对数据吞吐量的要求也与时俱增,要求达到传统应用的数十倍甚至百倍。对于存储来说,首先就是要快速将数据源源不断地投入大模型。
为最大程度发挥每块算力卡的“潜力”,华为OceanStor A800首创数控分离架构,让数据从接口卡直接传输到存储介质,避免CPU和内存等潜在的瓶颈,大幅提升存储带宽和IOPS能力。在2024年MLPerf TM存储基准性能测试比拼中,OceanStor A800荣登榜首,其2节点性能高达679 GB/秒。
面对训练过程中的海量数据汇聚与高效存储问题,华为AI数据湖解决方案构建了全局文件系统、无损多协议互通、EB级扩展以及热温冷数据智能分级存储等能力,用一套存储实现AI各阶段数据的免拷贝和格式免转换,加速数据价值释放,并实现整体拥有成本(TCO)最优。
在推理方面使大模型实现从“快思考”到“慢思考”的转化
大模型产品具有即时问答的“快思考”能力,让AI变得更“聪明”,就要使其具备逻辑梳理、应对变化的“慢思考”能力。
使AI具备“慢思考”的能力,关键在于记录下AI推理过程中的每一次“思考”结果,使其再遇到相同的复杂问题时不需要重新计算。专门记录大模型思考结果的存储被称为“长记忆内存型存储”,作为内存的扩展,以分级的方式实现月级/年级的记忆能力,甚至是“终生”记忆能力。
华为OceanStor A800是业界首款提供“长记忆”能力的存储,通过“多级键—值缓存(KV—Cache)机制”将所有的思考结果持久化保存并高效使用,让大模型推理具备“慢思考”能力,以减少大模型在预填充阶段的重复计算。如此,客户进行AI推理的时延可降低近八成,单个计算卡的吞吐量提升约2/3,可在实现推理体验提升的同时降低成本。
如今,智算中心正从千卡集群向万卡甚至超万卡集群演进。华为将与中国移动等企业持续深入合作,一起应对超万卡集群建设和运营带来的前所未有的挑战,抓住人工智能发展的历史机遇,打造自主创新的智算中心可靠数据底座。
最新发现
相关资讯
华为AI存储助力中国移动构建超大规模智算集群
大模型领域普遍存在规模化定律,即大模型的性能深受模型参数量、数据集大小以及训练算力规模三要素的影响。生成式AI的运行主要基于深度学习原理,其发展离不开海量数据信息的投入。面对智算集群目前存在的可用度
2025-04-03 17:45:40
AI技术时代如何追求“真善美”?阿来、李明泉精彩对谈
封面新闻记者 张杰一份报纸走过的30年岁月,记录了无数人的人生故事,也吸引了文化界众多杰出人士关注的目光。12月18日上午,作为见证华西都市报创刊30周年非凡岁月的两位重磅的文艺名家——中国作协副主席、四川省
2025-04-03 17:25:39
“黑化”AI成造谣工具
西安发生了大爆炸?运钞车遭遇武装抢劫并发生激烈枪战?比亚迪要收购蔚来?一则则耸人听闻的消息是真的吗?监管部门调查发现,上述消息都是借助人工智能(以下简称“AI”)工具编造,动机则是为了流量。相关专家在
2025-04-03 17:05:36
人工智能开启视听新篇章
中外嘉宾在大会展区参观体验人工智能技术。 北京市广播电视局供图 12月12日—13日,由北京市广播电视局、北京经济技术开发区管理委员会主办的2024北京国际视听大会在北京经济技术开发区举行,迎来中国和英国、法
2025-04-03 16:45:34
全国报业同行齐聚上海观察“AI+传媒”,他们在观察什么?
12月19日,2024中国报业传媒行业人工智能应用大会开幕,全国各地报业同行赴上海参会,共同探讨人工智能技术对传媒行业内容创新和范式变革的深刻影响。当今世界,人工智能正在以惊人的速度改变着人类的生活和工作
2025-04-03 16:25:33
四川长虹:将以AI人工智能和创新硬件为主线推进技术创新
证券时报e公司讯,近日,由上交所主办的“我是股东”投资者活动走进四川长虹(600839),公司高管就长虹发展、未来规划等问题与投资者进行了交流。四川长虹表示,公司一直密切关注人工智能领域的技术发展,并将人工智
2025-04-03 16:05:26
今日热榜
龚克:使用AI要保持自己的选择权,不能它说什么就是什么
2025-02-24 15:14:12为什么AI在广告投放上受追捧,创意上却饱受非议?
2025-02-19 13:57:58江苏8款人工智能大模型通过国家备案,助力生成式AI产业发展
2025-02-19 16:18:37中国大模型助力AI技术更开放更高效
2025-03-17 10:28:27上海如何推进“人工智能+生物医药”创新高地建设?
2025-03-18 15:49:07从产业布局看中美AI发展路径差异
2025-01-20 15:35:51聚焦智慧民航|人工智能:推动民航业发展的新一代“隐形引擎”
2025-01-23 13:52:32百家云CEO马义荣获「2024年度人工智能杰出人物」
2025-01-24 11:32:17积极推动全球人工智能包容普惠发展
2025-02-14 16:28:552024人工智能与水下机器人高峰论坛举行
2025-02-18 17:54:28热门推荐