DeepSeekV3.1发布后,一则官方留言让整个AI圈都轰动了:
新的架构、下一代国产芯片,总共短短不到20个字,却蕴含了巨大信息量。
国产芯片企业股价也跟风上涨,比如寒武纪今日早盘盘中大涨近14%,总市值跃居科创板头名。
半导体ETF,同样也是在半天的时间里大涨5.89%。(不知道作为放出消息的DeepSeek背后公司幻方量化,有没有趁机炒一波【手动狗头】)
这个UE8M0FP8到底是个啥?下一代国产芯片,又是指什么?
接踵而来的疑问,挤爆了人们的大脑。
在知乎上,也有不少大神开始边科普边分析自己对这件事的理解。
咱抱着学习心态,不妨就从UE8M0FP8的概念开始说起。
“UE8M0FP8”这个概念,可以拆分成前后两个部分来解释,前面的UE8M0,是MXFP8路径里的“缩放因子”。
MXFP8是OpenComputeProject在2023年发布的《Microscaling(MX)FormatsSpecificationv1.0》里定义的8bit微缩块格式。
OpenComputeProject是2011年由Facebook(现Meta)联合英特尔、Rackspace等发起的开源硬件协作计划,目的是通过共享数据中心及服务器设计推动行业效率提升。
其成员阵容相当强大,国外还有微软、谷歌、亚马逊、AMD、英伟达等,而国内的阿里、腾讯、百度等也参与其中。
说回MXFP8,它以FP8为基础建立,FP8是把常规浮点格式压缩到8bit的一种编码方式。
MXFP8的核心思想是先把张量切成固定长度的“块”,然后为每个块单独指定一个2的整数次幂作为“缩放因子”,把块内所有数一起除以这个系数后再写成FP8。
这种块级(而不是全张量级)的缩放,让MXFP8既保留了8bit位宽,又把可用动态范围扩展了几十倍。
△
而这里的“缩放因子”也是包含8个bit,其中包含符号位、指数位和尾数位,开发者可以自行将这8个bit分配给这三种不同的位。
其中符号位只区分有无,若有则占一个bit,无则不占用,而UE8M0中的U表示的就是无符号(有符号可表示为S或省略不写)。
E和M则分别表示指数位和尾数位分配到的bit数,E8M0指的就是8个bit全都分配给了指数位。
其他常用的格式还有E4M3、E5M2(缩放引子外的本体部分也常采用这两种)等,它们均包含符号位,其余7个bit在指数和尾数位之间分配。
DeepSeek之前开源的5.6k星标项目FP8GEMM内核DeepGEMM就已经支持UE8M0,不过这个项目主要是适配英伟达芯片和CUDA生态。
那么,采用这种全指数表示缩放因子的方式,有什么好处呢?
首先,由于UE8M0不含尾数与符号位,处理器在根据缩放因子对数据进行复原时,只需要乘以对应的2的幂,也就是移动一下指数位,而不需要浮点乘法、规格化或舍入逻辑,缩短了时钟关键路径。
并且UE8M0的动态范围覆盖2^(−127)到2^128,其指数表可轻松容纳这一跨度,为后续块缩放提供充足空间。
另外UE8M0还能解决单尺度FP8无法同时顾及大/小值,导致溢出或被压成0的问题,将UE8M0作为分块的尺度后,错误率曲线从整张曲线下降到一条远低水平的横线,在保持8bit张量精度的同时大幅减少信息损失。
△
UE8M0FP8的好处我们了解了,现在可以解释为什么它更适配“下一代国产芯片”了。
大部分已量产的国产AI加速器仍沿用FP16/BF16+INT8的计算通路,并未集成E4M3/E5M2这类完整的FP8乘加单元。
不过,摩尔线程MUSA3.1GPU、芯原VIP9000NPU等2025H2首发的新款国产芯片已经在宣传资料里列出“原生FP8”或“BlockFP8”支持,并与DeepSeek、华为等15家厂商联合验证UE8M0格式。
虽然下一代国产芯片虽然已经在为FP8做出准备,但HBM/LPPDDR带宽仍然与顶尖芯片存在较大差距。
而UE8M0让一组32个FP8数据只追加8bit缩放引子,相比传统的4B(32bit)FP32缩放直接节省75%的流量,这种空间节约措施被视作下一代架构的重要优化方向。
在搞清楚啥是UE8M0FP8之后,回过神来的网友们又开始纷纷猜测:
DeepSeek这是在说哪一家的国产芯片呢?
在官方有意卖关子的情况下,人们只好首先把目光放在了首批通过“DeepSeek大模型适配”的8家厂商。
△
这当中大家看好的“头号种子选手”当属寒武纪,市场反应相当直观——
截至今日10:25,寒武纪盘中大涨近14%,总市值超4940亿元,超过中芯国际跃居科创板头名(实际以最新为准)。
理由也很简单,该公司旗下的MLU370-S4、思元590及最新690系列芯片均支持FP8计算,在架构设计和低精度计算优化上一直相对比较领先。
而基于类似理由,海光、沐曦,中昊芯英甚至包括名单之外的摩尔线程等也都被网友们挨个点名:
海光:其深算三号DCU支持FP8计算,存在进一步优化的空间;
沐曦:今年7月发布的曦云C600,也支持FP8精度计算;
中昊芯英:其“刹那”TPUAI芯片支持FP8精度;
摩尔线程:作为国内极少数原生支持FP8的GPU厂商,旗舰产品MTTS5000支持FP8精度计算。
与此同时,一些很有可能“即将上车FP8”的厂商也出现在了一众盘点名单中。
例如华为昇腾,虽然昇腾910B和910C暂不支持原生FP8,但官方路线图已经写明“2025Q4原生FP8”,所以众人预计或将在2026年推出的910D(可能的命名)很有可能是所谓的“下一代芯片”。
除了以上这些,还有一大串芯片厂商的名字出现在了讨论当中,堪称盛况空前。
虽然猜来猜去没有最终定论,但不妨碍市场给予热烈回应。根据最新消息,今日国产芯片概念集体高开,科创50大涨3%创近三年半新高,芯片产业链集体走强。
所以,大家为什么集体狂欢?这些国产芯片一旦支持UE8M0FP8究竟意味着什么?
综合当前国内外各方说法来看,一切都可以用一句话来概括:
这代表了国产AI正走向软硬协同阶段,能够实质性减少对英伟达、AMD等国外算力的依赖。
这里头的逻辑也很简单清晰,正是由于UE8M0FP8精度格式所具备的上述优势(更小的带宽、更低的功耗、更高的吞吐),这意味着同样的硬件今后能跑更大的模型,所以国产芯片的“性价比”被大幅拉高了。
换句话说,这些国产芯片厂商将在竞争中更具优势,因此也就属于利好了。
从另一方面来看,DeepSeek通过改动精度格式,相当于主动贴合国产芯片的最佳性能点,这种软硬协同的模式无疑是把国产芯片们拉进了一个统一的生态坐标系。
这就像当年的“Wintel联盟”一样——微软和英特尔通过深度技术绑定,筑起了个人计算机领域的生态护城河,只不过如今换成了DeepSeek和国产芯片厂商们。
事实上,官方在正文部分提到UE8M0FP8的只有一句话:
需要注意的是,DeepSeek-V3.1使用了UE8M0FP8Scale的参数精度。
而且位置相当“隐蔽”,藏在了一大段洋洋洒洒的功能更新介绍之后。
要不是官方特意在评论区补了一句,估计大家还没啥感觉。
所以你说它这个动作吧,不知道算无意还是刻意为之,总之是相当微妙了(手动狗头)。
最新发现
相关资讯
DeepSeek一句话让国产芯片集体暴涨,背后的UE8M0 FP8到底是个啥
国产AI正走向软硬协同阶段
2025-09-01 09:01:15
韩国设立超100万亿韩元基金发展AI产业等:未来五年是“最后黄金期”
韩国政府发布“新政府经济增长战略”,计划以AI大转型和超创新型经济为目标推进企业主导的“三十大技术领先项目”。政府认为未来五年是实现AI大转型的“最后黄金期”,将设立规模超100万亿韩元的“国民增长基
2025-09-01 09:01:12
一分钟3.9万次请求,网站被AI爬虫“碾压”,Meta和OpenAI遭点名,开发者接连祭出神级反爬“武器”
「 这场猫捉老鼠的游戏永远不会结束,爬虫总会进化,想办法绕过各种陷阱。」
2025-09-01 09:01:01
OpenAI奥尔特曼曾提议为全体英国人免费提供ChatGPTPlus:潜在成本20亿英镑,后不了了之
目前,OpenAI提供的ChatGPTPlus订阅服务价格为每月20美元(现汇率约合1435元人民币),可提供更快的响应速度及新功能优先体验权限。
2025-08-31 09:01:28
消息称Anthropic正寻求100亿美元融资,投后估值将达约1700亿美元
AI公司Anthropic正寻求100亿美元融资,估值或达1700亿美元。投资方包括IconiqCapital、TPGInc等知名机构。Anthropic由前OpenAI成员创立,其Claude
2025-08-31 09:01:22
Meta公布Reels短视频音频翻译功能,利用AI多语言配音对口型
Meta正式推出Reels短视频AI自动翻译功能,支持英语和西班牙语,能同步翻译两人对谈内容并匹配嘴型,还能上传多语言音轨。短视频翻译AI技术
2025-08-31 09:01:15
今日热榜
“保守1000亿”,这个赛道正在批量制造90后富豪
2025-07-30 09:13:12WAIC UP!之夜:一场关于AI与人类未来的星空思辨
2025-07-31 09:08:13消息称微软与OpenAI正进行深入谈判:确保AGI时代技术合作
2025-07-31 09:08:16赋能医疗健康等领域北京亦庄发布全域人工智能之城建设首批成果
2025-02-06 09:55:372024年中国人工智能之自然语言处理(NLP)技术洞察
2025-03-28 09:29:09广州互联网法院参加人工智能发展与侵权法国际论坛
2025-05-02 21:54:13从“炼丹”到“开店”:大模型应用商店,能否解开国产AI的“商业化焦虑”?
2025-07-29 09:11:26第六届国际青年人工智能大赛总决赛在雄安举办
2024-12-20 13:54:23当蔡国强“指导”AI创作:灵魂扫描,灵性交集
2025-01-08 15:35:58AI推理需求有望加速发展,看好云端硬件需求维持高景气
2025-01-13 18:02:52热门推荐