首页 > AI教程资讯

GPT-5没有追求AGI，它代表的是OpenAI的商业化野心

发布时间：2025-08-13 09:10:39 来源:AI视频贴吧

北京时间8月8日凌晨，OpenAI发布了它们最新一代的GPT模型——GPT-5。

但是这一次的模型发布，却没有ChatGPT和GPT-4发布时那种横空出世的气势，也没有像o1发布时那样引领模型范式。

GPT-5以个位数优势领先竞争对手

从发布会公布的benchmark看，它的性能凭借个位数的优势，领先其他厂商在2025年发布的SOTA级别模型，失去了以往的代差优势。

但是，在这次发布中，我们观察到几个值得注意的点，简要分析，与关心AI的创业者和技术人们分享。

在发布会中，OpenAI的技术专家介绍，在GPT-5的训练中，他们让GPT-4o、o3等前一代模型生成训练数据，使GPT-5获得了推理、规划、分解任务的能力。

但是这种数据与那种“充数”的数据不同，OpenAI设计了一个能让模型生成“正确类型数据”的“合成流程”，提高了合成数据在模型训练中的作用。

这种合成数据的新应用，让前一代先进模型生成高质量数据，让后一代的预训练模型越来越强，再通过强化学习加强推理模型的方式，为先进模型的训练提供了新的可能性。

当然，要让模型能够解决更复杂的问题，或者越来越有“品味”，还是得靠高质量的人类标注数据，而且还需要一个经得住考验的数据质量评估系统。

Agent成为2025年AI应用领域最热的关键词，而这一波热潮，也是OpenAI在2月发布的“DeepResearch”功能掀起的。根据OpenAI的技术人员此前的分享，Agent本质不仅是模型+工具，而且需要从训练阶段，就让模型的能力为Agent优化。

所以在2025年，以AgenticAI为目标的AI模型越来越多，无论是海外的o3，Claude4，还是国内的Qwen3，KimiK2。

GPT-5，当然也不例外。它对于工具调用能力进行了着重微调。在模拟真实世界场景的测试集Tau²中，它在电信领域领域的测试结果，较o3和GPT-4.1都有长足的进步。

由latent.space邀请创业者和技术专家对GPT-5的测试中，可以看到了GPT-5在工具调用上的一些新特点。

一方面，人们只需要自然语言描述，就可以让GPT-5调用工具。

另一方面，GPT-5非常擅长并行使用工具。这是很多其他模型做得到，但做不好的领域。因为理解哪些工具可以/应该并行运行，哪些应该顺序运行，需要相当高的智能。

能够并行化使用工具，意味着GPT-5可以在更长的时间范围内运行，并且具有更低的延迟。这种改进使得基于GPT-5构建更复杂的Agent产品成为可能。

总结来说，GPT-5会与工具一起思考，然后用工具来构建程序。

编程是现在所有的AI模型又一个着重强调的能力，GPT-5在SWE-bench和AiderPolyglot等测试上与o3相比有了明显提高，但是在SWE-bench这个指标上，只领先Claude4.1Opus这个直接竞争对手0.4%。

GPT-5的编程表现

Claude4.1Opus的编程表现

不过在实际的编程能力上，GPT-5的进步会更大。一方面，它擅长智能体式编码；另一方面，它“修改bug”的能力更好。这两个提升，一个对应的是商业化的复杂编程，另一个则对应个人化的“VibeCoding”。

前文提到的latent.space也对GPT-5的智能体式编码进行了测试，他们的“测试题”比较困难，无论是o3+Cursor还是Claude4Opus都无法解决问题，但GPT-5却一次性就将问题解决了。

这其中的关键，就在于模型调用工具的方式不同。在与Claude4Opus的对比中，GPT-5会在编程过程中进行更多次的思考，类似于边想边做，不断迭代；而Claude4Opus则更类似于想清楚了再做。

GPT-5与Claude4Opus在智能体式编码方面的对比（来源：latent.space）

为什么无论是模型厂商还是应用创业公司，都对AI编程如此重视？因为编程是目前AI应用领域，已探明市场容量最大的方向之一，有助于大家缓解营收的压力。

Anthropic从Claude3.5开始，一步步占据最强编程模型的位置，OpenAI也是从o1，o3，一直到GPT-5；对于编程的投入越来越大，并且无论是“跑分”还是实际应用，表现越来越好。

尽管OpenAI，尤其是它的CEOSamAltman一再强调它们是一家以AGI为长期愿景的公司，但是从GPT-5本身，以及OpenAI自2025年发布的一系列产品和功能来看，它们的商业化属性，在进一步增强。

2025年，它们在ChatGPT中发布了DeepResearch，引领了Agent热潮；对Canvas功能进行加强，允许直接在视觉界面中编辑内容；为GPT-4o加入生图功能，让全世界沉浸在吉卜力风的世界里；还加入了学习模式（StudyMode），让ChatGPT变成个人教师。

这一系列针对用户体验而非探索AGI的升级，让ChatGPT的用户数和收入水涨船高，根据最新的统计，ChatGPT的周活用户超过7亿，付费用户达到500万，订阅收入是27亿美元。

在企业级的商业化方面，GPT-5将其API价格控制在输入1.25美元/百万tokens，输出10美元/百万tokens，直接对标Gemini2.5Pro，大幅低于Claude4Opus，这对于企业和开发者们比较有吸引力。

除此之外，GPT-5还大幅降低了模型的幻觉，大幅提高了上下文长度（拓展到了400k），而且GPT-5thinking在解决复杂问题时，使用的token数量减少了50%-80%，这些都提高了模型的可用性，降低了成本。

进入2025年，我们看到了开源的DeepSeekR1席卷全球，看到Gemini2.5Pro成为新的SOTA模型标杆，但同样也看到了大语言模型进步速度的停滞。

无论是马斯克的xAI用数十万块显卡训练的Grok4，还是千呼万唤始出来的GPT-5，它们虽然强，但是进步是渐进式，而非跨越式。可能在现有的技术范式下，大语言模型的性能进步已经暂时遭遇了瓶颈。

那么，如果大语言模型遇到瓶颈，对于应用端的创业者来说，是好事还是坏事？模型厂商在模型训练遇阻后，会将更多精力放到应用端么？创业者会被大厂们吞掉么？

我们认为不会，因为AI应用是一个快鱼吃慢鱼，而不是大鱼吃小鱼的游戏。拼速度，拼创新，拼对于用户的感知，大厂在创业公司面前完全没有优势。

最近，Notion的IvanZhao在接受采访时说，在AI时代，打造产品的材料和方式彻底不同了，面对新的挑战，他异常兴奋。这种创业和创新的状态，是我们欣赏的。

本文来自微信公众号“阿尔法公社”（ID：alphastartups），作者：发现非凡创业者的阿尔法公社，经授权发布。