GPT-5被曝重大缺陷：多轮对话场景下性能暴跌39%，AI的"短期记忆"怎么了？

最新研究显示，包括GPT-5在内的新一代大语言模型在多轮对话场景下性能最高下降39%。拉班团队在代码、数据库等六大任务中测试发现，当信息被拆分到多轮对话中时，模型表现明显不如一次性输入完整信息。这揭示了AI在"持续记忆"能力上的不足，也让我们重新审视对AI的期望。

今天是2026年3月1日，AI圈又炸出了一颗"重磅炸弹"。

就在几个小时前，IT之家等多家媒体报道了一项来自菲利普·拉班团队的最新研究成果。简单来说，他们发现包括GPT-5在内的新一代大语言模型，在需要跨多轮对话完成的复杂任务中，表现竟然会"断崖式"下滑——性能最高下降39%。

39%的跌幅意味着什么？

先别急着下定论。39%听起来可能只是一个冷冰冰的数字，但想象一下：你让AI帮你写一段代码，如果在单个提示词里一次性说完需求，它能做得很好；但如果你把需求拆分成几个问题，一步步问它，它就有可能把前几轮说过的关键信息给"忘"了。

这就像你在和一个记忆力不太好的人聊天——上一秒才告诉他的事情，下一秒他就忘得一干二净。更糟的是，这种"健忘"在专业领域的任务中表现得尤其明显。

拉班团队的测试范围相当全面：代码、数据库、操作指令、数据转文本、数学计算、文本摘要——这六个都是目前AI应用最广泛、最考验逻辑连贯性的场景。

结果怎么说呢？不算"灾难级"，但也绝对称不上理想。当信息被拆分到多轮对话中时，模型的表现明显不如一次性输入完整信息。这说明什么？说明目前这些号称"无所不能"的大模型，在"持续记忆"这个基础能力上，还有很长的路要走。

说实话，这个结果并不让我特别意外。

从技术角度看，目前的大语言模型本质上是基于上下文窗口来"记住"信息的。但多轮对话会不断"刷新"上下文，关键信息很容易被新信息"挤出"记忆空间。再加上模型的注意力机制可能在长对话中逐渐"走神"，性能下滑就在所难免了。

但更深层的问题是：我们现在对AI的期望是不是太高了？我们希望它能像人一样进行自然的多轮交流，但又用"机器"的标准去要求它。这种矛盾，可能是AI发展过程中必须要面对的一道坎。

如果你是普通用户，用AI来写写邮件、生成点创意文案，这个问题影响不大。但如果你指望AI帮你处理复杂的项目、需要多轮协作的专业任务，那就要小心了——最好把所有需求一次性说清楚，或者时不时提醒一下它之前说过的要点。

当然，你也可以像我一样，把AI当作"聪明的健忘症患者"：它能帮你解决很多问题，但你得时不时帮它"回忆"一下上下文。这可能有点麻烦，但总比被它"乱来"要好得多。

我个人的看法是：会的。

毕竟，AI技术发展到现在，每一次"翻车"都成为下一次改进的动力。现在这个问题暴露出来了，各大公司肯定会想尽办法去解决——无论是通过改进架构、增大上下文窗口，还是引入专门的"记忆模块"，总会有办法的。

但在此之前，我们还是得面对现实：AI很强，但还没强到可以完全替代人类的思考和组织能力。它是一个强大的工具，但工具终究是工具，使用它的人才是真正的掌控者。

这项研究再次提醒我们：在拥抱AI带来的便利时，也要清醒地认识到它的局限性。期待看到各大模型厂商对这个问题的回应，也期待下一个版本能给我们带来惊喜。

好了，今天的内容就到这里。你有没有遇到过AI"健忘"的情况？欢迎在评论区分享你的经历～