OpenAI 发布 GPT-5.4：AI 工作流新纪元终于来了

OpenAI 于 3 月 5 日正式发布 GPT-5.4，集成了推理、编码和代理工作流，支持 100 万 token 上下文和原生计算机使用功能，标志着 AI 从「聊天」向「干活」的本质跨越。

作为一名长期关注 AI 发展的科技博主，说实话，这几年我已经见惯了各种「划时代」的 AI 发布。但当 OpenAI 在昨天（3 月 5 日）正式推出 GPT-5.4 时，我第一次真正感觉到：这次可能不一样。

为什么这么说？因为 GPT-5.4 最大的突破不是参数更大、也不是训练数据更多，而是它终于开始学会「干活」了。

从聊天到干活：本质的跨越

之前的 GPT 模型，说实话更像是一个超级聪明的聊天机器人。它能写代码、能回答问题，但你要让它完成一个复杂的多步骤任务，还是得人在旁边一步步指挥。就像你雇了个超级聪明的实习生，但他只会被动回答问题，不会主动帮你把事情做完。

GPT-5.4 改变了这一点。OpenAI 官方的说法是：这是「最强大和高效的面向专业工作的前沿模型」。更关键的是，它把「推理、编码和代理工作流」统一到了一个模型里。

简单翻译一下：这个 AI 不再只是和你聊天，它可以直接操作你的电脑，帮你完成从查资料、写代码、跑测试到生成报告的整个工作流。

这次发布有两个版本：GPT-5.4 Thinking 和 GPT-5.4 Pro。

Thinking 版本主打「深度思考」，特别适合需要复杂推理的任务。OpenAI 说它在深度网络研究方面有显著提升，特别是对于那些需要「更长思考时间」的问题，能更好地保持上下文。

Pro 版本则是面向专业用户的「全能选手」，集成了计算机视觉、工具使用增强等功能，可以直接和各类应用程序交互。

官方给的数据很亮眼：在 OpenAI 的 GDPval 测试（知识工作任务）中得分 83%，在 Mercor 的 APEX-Agents 基准测试（法律和金融专业能力）中领先。

更吸引我的是这个数据：相比 GPT-5.2，GPT-5.4 的错误率降低了 18%，虚假信息减少了 33%。对于真正要拿来干活的企业用户来说，这两个数字比任何花哨的功能都重要。

另外，100 万 token 的上下文窗口（大约相当于 70 万汉字）也意味着你可以把整个项目代码库、或者一份完整的法律合同丢给它，让它帮你分析和处理。这个量级在一年前还停留在理论阶段，现在已经变成产品了。

我看到很多评论在讨论「AGI 还有五年」还是「AGI 还有十年」。说实话，这种预测没什么意义。

更实际的问题是：当 AI 可以独立完成复杂的多步骤工作流时，我们的工作方式会怎么变？

比如你是个程序员，以后可能不是从零开始写代码，而是告诉 GPT-5.4：「帮我开发一个电商网站的后端 API」，然后它就自动完成从设计、编码、测试到部署的全过程。你的角色会变成「指导者」和「审核者」。

再比如你是个金融分析师，让 GPT-5.4 去收集数据、做分析、写报告，可能几个小时就能完成过去几天的工作。

这次发布有几个值得注意的信号：

OpenAI 被逼急了：GPT-5.4 是在 GPT-5.3 Instant 发布两天后推出的，这种节奏在 OpenAI 的历史上不多见。背后是 Anthropic Claude 和 Google Gemini 的持续竞争。
从通用到专业：GPT-5.4 的定位很明确，就是「专业工作」。这是 AI 从实验室走向生产力的关键一步。
开放趋势：根据 TechCrunch 的报道，最大的突破现在发生在「后训练阶段」，这意味着会有更多开源模型可以被定制和微调。这是个好消息。

今天早上我把 GPT-5.4 Thinking 加入到了我的工作流里，让帮我整理这篇博客的参考资料。说实话，那种感觉有点奇妙——不是它在帮我「写东西」，而是它在「完成任务」。

这可能就是 AI 发展的一个新阶段：从聊天到干活，从辅助到代理。

当然，GPT-5.4 还远不是完美的。它还是会犯错，还是会产生幻觉，离真正可靠的「AI 员工」还有很长的路要走。但至少现在，方向是对的。

你觉得 GPT-5.4 会怎么改变你的工作方式？欢迎在评论区分享你的想法。