北京时间8月8日凌晨,OpenAI发布了它们最新一代的GPT模型——GPT-5。
但是这一次的模型发布,却没有ChatGPT和GPT-4发布时那种横空出世的气势,也没有像o1发布时那样引领模型范式。
GPT-5以个位数优势领先竞争对手
从发布会公布的benchmark看,它的性能凭借个位数的优势,领先其他厂商在2025年发布的SOTA级别模型,失去了以往的代差优势。
但是,在这次发布中,我们观察到几个值得注意的点,简要分析,与关心AI的创业者和技术人们分享。
在发布会中,OpenAI的技术专家介绍,在GPT-5的训练中,他们让GPT-4o、o3等前一代模型生成训练数据,使GPT-5获得了推理、规划、分解任务的能力。
但是这种数据与那种“充数”的数据不同,OpenAI设计了一个能让模型生成“正确类型数据”的“合成流程”,提高了合成数据在模型训练中的作用。
这种合成数据的新应用,让前一代先进模型生成高质量数据,让后一代的预训练模型越来越强,再通过强化学习加强推理模型的方式,为先进模型的训练提供了新的可能性。
当然,要让模型能够解决更复杂的问题,或者越来越有“品味”,还是得靠高质量的人类标注数据,而且还需要一个经得住考验的数据质量评估系统。
Agent成为2025年AI应用领域最热的关键词,而这一波热潮,也是OpenAI在2月发布的“DeepResearch”功能掀起的。根据OpenAI的技术人员此前的分享,Agent本质不仅是模型+工具,而且需要从训练阶段,就让模型的能力为Agent优化。
所以在2025年,以AgenticAI为目标的AI模型越来越多,无论是海外的o3,Claude4,还是国内的Qwen3,KimiK2。
GPT-5,当然也不例外。它对于工具调用能力进行了着重微调。在模拟真实世界场景的测试集Tau²中,它在电信领域领域的测试结果,较o3和GPT-4.1都有长足的进步。
由latent.space邀请创业者和技术专家对GPT-5的测试中,可以看到了GPT-5在工具调用上的一些新特点。
一方面,人们只需要自然语言描述,就可以让GPT-5调用工具。
另一方面,GPT-5非常擅长并行使用工具。这是很多其他模型做得到,但做不好的领域。因为理解哪些工具可以/应该并行运行,哪些应该顺序运行,需要相当高的智能。
能够并行化使用工具,意味着GPT-5可以在更长的时间范围内运行,并且具有更低的延迟。这种改进使得基于GPT-5构建更复杂的Agent产品成为可能。
总结来说,GPT-5会与工具一起思考,然后用工具来构建程序。
编程是现在所有的AI模型又一个着重强调的能力,GPT-5在SWE-bench和AiderPolyglot等测试上与o3相比有了明显提高,但是在SWE-bench这个指标上,只领先Claude4.1Opus这个直接竞争对手0.4%。
GPT-5的编程表现
Claude4.1Opus的编程表现
不过在实际的编程能力上,GPT-5的进步会更大。一方面,它擅长智能体式编码;另一方面,它“修改bug”的能力更好。这两个提升,一个对应的是商业化的复杂编程,另一个则对应个人化的“VibeCoding”。
前文提到的latent.space也对GPT-5的智能体式编码进行了测试,他们的“测试题”比较困难,无论是o3+Cursor还是Claude4Opus都无法解决问题,但GPT-5却一次性就将问题解决了。
这其中的关键,就在于模型调用工具的方式不同。在与Claude4Opus的对比中,GPT-5会在编程过程中进行更多次的思考,类似于边想边做,不断迭代;而Claude4Opus则更类似于想清楚了再做。
GPT-5与Claude4Opus在智能体式编码方面的对比(来源:latent.space)
为什么无论是模型厂商还是应用创业公司,都对AI编程如此重视?因为编程是目前AI应用领域,已探明市场容量最大的方向之一,有助于大家缓解营收的压力。
Anthropic从Claude3.5开始,一步步占据最强编程模型的位置,OpenAI也是从o1,o3,一直到GPT-5;对于编程的投入越来越大,并且无论是“跑分”还是实际应用,表现越来越好。
尽管OpenAI,尤其是它的CEOSamAltman一再强调它们是一家以AGI为长期愿景的公司,但是从GPT-5本身,以及OpenAI自2025年发布的一系列产品和功能来看,它们的商业化属性,在进一步增强。
2025年,它们在ChatGPT中发布了DeepResearch,引领了Agent热潮;对Canvas功能进行加强,允许直接在视觉界面中编辑内容;为GPT-4o加入生图功能,让全世界沉浸在吉卜力风的世界里;还加入了学习模式(StudyMode),让ChatGPT变成个人教师。
这一系列针对用户体验而非探索AGI的升级,让ChatGPT的用户数和收入水涨船高,根据最新的统计,ChatGPT的周活用户超过7亿,付费用户达到500万,订阅收入是27亿美元。
在企业级的商业化方面,GPT-5将其API价格控制在输入1.25美元/百万tokens,输出10美元/百万tokens,直接对标Gemini2.5Pro,大幅低于Claude4Opus,这对于企业和开发者们比较有吸引力。
除此之外,GPT-5还大幅降低了模型的幻觉,大幅提高了上下文长度(拓展到了400k),而且GPT-5thinking在解决复杂问题时,使用的token数量减少了50%-80%,这些都提高了模型的可用性,降低了成本。
进入2025年,我们看到了开源的DeepSeekR1席卷全球,看到Gemini2.5Pro成为新的SOTA模型标杆,但同样也看到了大语言模型进步速度的停滞。
无论是马斯克的xAI用数十万块显卡训练的Grok4,还是千呼万唤始出来的GPT-5,它们虽然强,但是进步是渐进式,而非跨越式。可能在现有的技术范式下,大语言模型的性能进步已经暂时遭遇了瓶颈。
那么,如果大语言模型遇到瓶颈,对于应用端的创业者来说,是好事还是坏事?模型厂商在模型训练遇阻后,会将更多精力放到应用端么?创业者会被大厂们吞掉么?
我们认为不会,因为AI应用是一个快鱼吃慢鱼,而不是大鱼吃小鱼的游戏。拼速度,拼创新,拼对于用户的感知,大厂在创业公司面前完全没有优势。
最近,Notion的IvanZhao在接受采访时说,在AI时代,打造产品的材料和方式彻底不同了,面对新的挑战,他异常兴奋。这种创业和创新的状态,是我们欣赏的。
本文来自微信公众号“阿尔法公社”(ID:alphastartups),作者:发现非凡创业者的阿尔法公社,经授权发布。
最新发现
相关资讯
GPT-5没有追求AGI,它代表的是OpenAI的商业化野心
模型的进步进入瓶颈期,对于创业者是坏事么?
2025-08-13 09:10:39
亏到发疯!AI编程独角兽年入2亿8,结果用户越多亏得越狠
Windsurf之思,为啥AI编程公司年入千万还在亏?一个个赚飞的AI编程公司其实已经亏爆了!TechCrunch的最新调查带来了这个反常识的冷思考。这一思考源
2025-08-12 09:12:50
AI发展迎来「中国式方案」的黄金时刻|2025 AI Partner百业大会官宣定档
人工智能涌现,东方智慧闪耀。
2025-08-12 09:12:44
马斯克炮轰OpenAI和微软关系,纳德拉回帖称期待Grok5到来
科技媒体WindowsCentral今天(8月9日)发布博文,报道称特斯拉熟悉执行官埃隆・马斯克猛烈抨击微软与OpenAI的数十亿美元合作,称其背叛了OpenAI非营利初心,沦为微
2025-08-12 09:12:38
即梦新升级了一个扶持计划,要让AI创作者不再“为爱发电”
积分奖励流量扶持字节系商单等,统统有机会拿到AIGC时代最火的创作者是谁?是不是第一时间也想不到某个具体的名字或者账号。这就是如今AI创作圈的真实现状——模
2025-08-12 09:12:34
企业在AI数据竞赛中如何重新掌控数据?Reddit 诉 Anthropic 的启示
当公开数据成为AI淘金热中的“黄金”,平台的数据权益保卫战已然打响。Reddit对Anthropic的重磅诉讼,撕开了AI巨头训练数据来源的隐秘一角:抓取与变通访问正大规模蚕食企业苦心积累的数据资源。
2025-08-12 09:12:30
今日热榜
张强医生集团Emily:AI医生面临三大挑战
2025-04-01 14:27:09何小鹏谈创新:下一轮汽车行业创新将叠加AI技术
2025-01-30 19:40:48SASE如何重塑网络安全新架构?全面解析SASE技术优势
2025-05-01 22:44:25一年3次调价,连Salesforce都搞不定,AI定价到底难在哪?
2025-07-30 09:12:43鸿蒙版腾讯地图重磅升级:新增AI搜索、导航无缝流转打造高效出行新体验
2025-07-30 09:12:49英特尔确认CoralRapids处理器规划,Intel18A节点服务至少三代产品
2025-07-30 09:13:02“保守1000亿”,这个赛道正在批量制造90后富豪
2025-07-30 09:13:12WAIC UP!之夜:一场关于AI与人类未来的星空思辨
2025-07-31 09:08:13消息称微软与OpenAI正进行深入谈判:确保AGI时代技术合作
2025-07-31 09:08:16“子曰”大模型多元场景加速落地网易有道携全矩阵AI应用亮相2025WAIC
2025-07-31 09:08:23热门推荐