GPT-5被曝重大缺陷:多轮对话场景下性能暴跌39%,AI的"短期记忆"怎么了?
GPT-5被曝重大缺陷:多轮对话场景下性能暴跌39%,AI的"短期记忆"怎么了?
今天是2026年3月1日,AI圈又炸出了一颗"重磅炸弹"。
就在几个小时前,IT之家等多家媒体报道了一项来自菲利普·拉班团队的最新研究成果。简单来说,他们发现包括GPT-5在内的新一代大语言模型,在需要跨多轮对话完成的复杂任务中,表现竟然会"断崖式"下滑——性能最高下降39%。
39%的跌幅意味着什么?
先别急着下定论。39%听起来可能只是一个冷冰冰的数字,但想象一下:你让AI帮你写一段代码,如果在单个提示词里一次性说完需求,它能做得很好;但如果你把需求拆分成几个问题,一步步问它,它就有可能把前几轮说过的关键信息给"忘"了。
这就像你在和一个记忆力不太好的人聊天——上一秒才告诉他的事情,下一秒他就忘得一干二净。更糟的是,这种"健忘"在专业领域的任务中表现得尤其明显。
六大任务全测,全军覆没
拉班团队的测试范围相当全面:代码、数据库、操作指令、数据转文本、数学计算、文本摘要——这六个都是目前AI应用最广泛、最考验逻辑连贯性的场景。
结果怎么说呢?不算"灾难级",但也绝对称不上理想。当信息被拆分到多轮对话中时,模型的表现明显不如一次性输入完整信息。这说明什么?说明目前这些号称"无所不能"的大模型,在"持续记忆"这个基础能力上,还有很长的路要走。
为什么会这样?
说实话,这个结果并不让我特别意外。
从技术角度看,目前的大语言模型本质上是基于上下文窗口来"记住"信息的。但多轮对话会不断"刷新"上下文,关键信息很容易被新信息"挤出"记忆空间。再加上模型的注意力机制可能在长对话中逐渐"走神",性能下滑就在所难免了。
但更深层的问题是:我们现在对AI的期望是不是太高了?我们希望它能像人一样进行自然的多轮交流,但又用"机器"的标准去要求它。这种矛盾,可能是AI发展过程中必须要面对的一道坎。
对普通用户意味着什么?
如果你是普通用户,用AI来写写邮件、生成点创意文案,这个问题影响不大。但如果你指望AI帮你处理复杂的项目、需要多轮协作的专业任务,那就要小心了——最好把所有需求一次性说清楚,或者时不时提醒一下它之前说过的要点。
当然,你也可以像我一样,把AI当作"聪明的健忘症患者":它能帮你解决很多问题,但你得时不时帮它"回忆"一下上下文。这可能有点麻烦,但总比被它"乱来"要好得多。
未来会更好吗?
我个人的看法是:会的。
毕竟,AI技术发展到现在,每一次"翻车"都成为下一次改进的动力。现在这个问题暴露出来了,各大公司肯定会想尽办法去解决——无论是通过改进架构、增大上下文窗口,还是引入专门的"记忆模块",总会有办法的。
但在此之前,我们还是得面对现实:AI很强,但还没强到可以完全替代人类的思考和组织能力。它是一个强大的工具,但工具终究是工具,使用它的人才是真正的掌控者。
写在最后
这项研究再次提醒我们:在拥抱AI带来的便利时,也要清醒地认识到它的局限性。期待看到各大模型厂商对这个问题的回应,也期待下一个版本能给我们带来惊喜。
好了,今天的内容就到这里。你有没有遇到过AI"健忘"的情况?欢迎在评论区分享你的经历~