WAIC2024超越边界:探索下一代大模型的基础研究
作者/ IT时报记者沈毅斌
编辑/孙妍
大语言模型,文字界的创作者,可以撰写生动故事、制作文案策划、与人们深度交流对话;视觉大模型,拥有识别图像、分类图像、生成图像等能力,让其成为“画家”;多模态大模型则是一位全能选手,文本、图像、音频、视频等处理都不在话下……
这些以Transformer为核心架构的大模型,正在以前所未有的方式影响着人类社会的各个层面,实现从百万参数向万亿参数的飞跃发展。但新的挑战也随之而来,算力需求大、训练和推理消耗能源巨大、数据质量不佳等,让人们再次站在“十字路口”。
尽管目前的大模型已经能够联想推理出相似的词句信息,但它还比不上人脑,人脑会不断预测,跨越多个尺度的表征层级。而实现这一能力的原因就是“记忆分层”,具体来看,就是当元知识、高频知识、低频知识等输入脑海时,会被分层处理为条件反射的隐性记忆、有意识回忆的显性记忆、暂时进行信息保存的工作记忆。
因此要让下一代大模型实现进一步智能化,同样需要进行分层处理。
“对于下一代大模型发展,第一要用好全量数据,第二要最大程度地降低成本和功耗。”中国科学院院士、北京科学智能研究院理事长鄂维南在“超越边界:探索下一代大模型的基础研究”论坛上表示,下一代人工智能的技术框架可以分为四层,第一层将是通用AI数据库,这个数据库会将结构化、非结构化、半结构化等不同类型的数据统一,不是被动的数据存储库,而是主动参与数据分析和决策过程的重要数据库。
在此基础上搭建的第二层为通用模型和专用知识库。通用模型提供强大的信息处理能力,专用知识库提供专业领域的深度和精准度,两者结合实现低成本、高效率地打造第三层智能体(小模型)。
随着一个个小模型参数量、数据结构复杂度等不断增加,就能逐步搭建起最顶层的操作程序,即大模型最终结构。
在华为昇腾计算业务CTO周斌看来,如今大模型的发展离不开三大定律。第一定律为Scaling Law,即尺度定律,模型的规模大小决定了模型的能力上限。目前来看,大模型表现出对模型规模的依赖性,随着计算量、数据量和参数量的提升而提升,而这一提升是可以预测的。
因此引出第二定律Chinchilla Law(龙猫定律),即在有限的计算资源下,寻找模型的参数量和数据量之间一个最优比例,模型大小和训练token的数量也应该以相等的比例进行扩展。
第三定律Emergent Abilities(涌现能力),是计算量达到一定阈值后才可能出现。目前测试数据显示,LLMs的“涌现能力”普遍出现在进行10的22次方浮点运算之后,在10的22次方至10的24次方之间能力成线性增长。
周斌认为,在大模型达到百万亿参数级之前,Scaling Law将持续奏效,此后,Gemini、Sora这样突破百万tokens的超长序列将成为大模型主流标配。这就意味着,更大的模型+更多的数据+更多的计算才能让大模型从数据驱动走向算力驱动,形成下一代大模型。
“我们一直在规划下一代基础设施创新,以继续推动 AI能力越来越强大。”微软首席沟通官Frank Shaw曾表示,这意味着前所未有的投入、算力、能源等需求将为下一代大模型的发展带来诸多挑战。
从算力维度来看,训练单模型的算力规模呈现指数级别增长。从GPT-2到GPT-4,训练算力增加了3000~10000倍;过去十多年来,每年模型算力需求约增长3倍多;2027年前可能会出现价值百亿美元的单集群。不过,算力规模预计,指数级增长可能在2028年达到顶峰。
数据量方面,周斌现场展示了三组数据图,高质量语言数据存量40T Tokens ,预计2026年前耗尽;低质量数据可以支持到2040年左右;目前,图像数据集年增长率大约18%~31%,预计在2030年到2060年之间耗尽。
随着AI模型增大,单NPU/GPU芯片所需要的互联带宽快速增长,需求已经超过了传统交换芯片容量的增长速度;AI算力集群规模的增长加上单芯片互联带宽的增长,将互联网络的规模推向了新高,百万卡集群需近千万的互联端口,而因为能源供给等问题,也会进一步推高跨区域的DC互联带宽,这些都将成为下一代大模型基础设施建设的挑战。
周斌还表示,大模型训练是一个大型分布式全机应用,随着集群规模增加,故障发生间隔快速缩短,严重影响集群系统实际的可用计算时间,如何预测、检测、隔离和恢复系统故障,提升大模型训练的有效计算效率?这是大规模算力集群的另一个挑战。
智能手机的发展关键点是迎来了“iPhone时刻”,大模型走进大众视野的关键点是ChatGPT的横空出世,那么下一代大模型发展的新奇点会是什么?
“我们猜想是AI的研究自动化,可能会迎来智能爆炸时代。”周斌口中的AI研究自动化,即用AI来自动研究AI。在他看来,未来智能计算技术发展路径整体为摩尔定律延长线走向非冯架构(突破冯·诺依曼架构局限),再到新计算范式的兴起。
具体来看,是存、传、算、电、质五大方面的改变。计算介质由电子计算发展为量子计算,从近似计算发展为模拟计算;软件使能从混合精度变为AI OS;计算架构从对等架构变为存算一体架构;工艺工程的wafer scale尺寸将升级为M3D。在这些细节改变提升后,带宽、计算速度、计算能效、信息压缩等也能得到大幅提升,下一代大模型将拥有更强的智能计算能力。
对于如何打造下一代大模型,周斌认为,可以塑造一个新的模型结构,比如全连接基础上增加bypass路径,来提升大模型局部性计算的能力。目前,知识图谱、检索增强生成技术还处于一个早期状态,可以考虑制造通用大模型+领域大模型的混合模型,解决异构模型、小模型消费数据量少的情况。同时,将专业知识、物理和化学模型、生物和认知行为以及社会科学等机理融入到AI能力中。使大模型在线学习能力、强化学习能力可以持续演进。
最新发现
相关资讯
下一代大模型的新奇点是什么?
WAIC2024超越边界:探索下一代大模型的基础研究作者/ IT时报记者沈毅斌编辑/孙妍大语言模型,文字界的创作者,可以撰写生动故事、制作文案策划、与人们深度交流对话;视觉大模型,拥有识别图像、分类图像、生成
2025-05-16 15:58:45
蚂蚁百灵大模型升级多模态能力,领跑AI新潮流
蚂蚁集团在2024世界人工智能大会上发布百灵大模型最新进展,该模型已实现原生多模态能力,能够理解和处理音频、视频、图像、文本等多模态数据,领先国内同行,应用潜力巨大。
2025-05-16 15:34:45
大模型价格战谁会受益
从讳莫如深到开诚布公,大模型价格战开打两个月,从业者主动或被动地参与其中,7月4日—6日举办的2024世界人工智能大会期间,大模型价格战依然是热门话题,但参与各方强调的不再是价格本身,而是一针见血到商业模
2025-05-16 15:10:45
人工智能+行动:如何应对?
2024年全国两会政府工作报告中提出的“人工智能+”行动引发广泛关注。本文探讨了“人工智能+”应该如何应对、如何推动各行业应用,以及中国在人工智能发展中的独特优势和面临的挑战。
2025-05-16 14:46:45
联汇科技第二代多模态智能体OmAgent发布
联汇科技在世界人工智能大会(WAIC)上发布了第二代多模态智能体OmAgent,新版本提升了感知模块和思考决策能力,适配智能体决策过程中的复杂场景。
2025-05-16 14:22:45
中国科协主席万钢与大学生面对面:跑赢人工智能新时代
7月3日,中国科协主席万钢在南宁与广西高校学生进行面对面交流。他分享了应对人工智能发展的策略,鼓励青年学子在科技革命中取得主动。文章深入探讨了万钢对科研、创业和农业现代化的见解,以及他在会议中提出的
2025-05-16 13:58:45
今日热榜
聚焦人工智能“互联网之光”博览会今日开幕
2025-01-15 10:48:35五年1万亿元!中国银行推出“人工智能”专项综合金融支持
2025-03-12 13:08:25古特雷斯:气候变化和人工智能无序扩张威胁人类生存发展
2025-03-12 14:48:53OpenAI新“靠山”?媒体:特朗普就职前和Altman通电话畅谈AI基建
2025-03-12 15:29:07未来是否有进军AI玩具的打算?协创数据回应
2025-03-12 16:09:17AI招聘法律风险解析:求职者陷低分出局困境
2025-05-09 11:50:42微软亚马逊挖AI独角兽核心团队遭调查
2025-05-09 15:11:33中国AIPC行业研究报告
2025-05-09 15:31:422024合肥市人工智能生态大会盛况回顾
2025-05-10 15:53:00AI端侧爆发,桌面机器人迎量产,产业链上市公司加码“抢鲜”
2024-12-24 14:45:31热门推荐