39%的性能暴跌?GPT-5多轮对话翻车,研究揭示AI模型的致命软肋
39%的性能暴跌,打破幻想的一天
今天看到一条消息,有点让人措手不及。IT之家3月1日报道,一项由Philippe Laban团队主导的研究揭示了一个令人担忧的事实:即便是GPT-5及后续版本,在多轮对话场景下,性能最高会下降39%。
说实话,这个数字让我有点意外。毕竟在2026年的今天,大语言模型已经发展到什么程度了?参数规模动辄万亿级,上下文窗口动不动就几十万甚至上百万token,怎么还会在"多轮对话"这个看似基础的场景上栽跟头?
问题出在哪里?
研究人员做了一个很简单的对比实验:把同样的任务信息,一种方式是拼接式——全部塞进一个提示词里;另一种是分片式——拆分到多条消息中模拟真实对话场景。
结果?分片式场景下,模型的表现直接崩了。
测试涵盖了六大类任务:
- 代码
- 数据库操作
- 指令执行
- 数据转文本
- 数学计算
- 文本摘要
其中Python任务表现相对最好,性能损失在10%-20%之间,算是勉强能接受。但其他任务就惨不忍睹了,特别是操作指令和数据库查询,直接暴跌30%以上。
这不是简单的"遗忘"
很多人第一反应可能是:"这不是理所当然的吗?对话聊多了,模型不就忘了前面的内容了?"
但问题的关键不在这里。
研究团队发现,即使把整个对话历史完整地喂给模型,它依然表现糟糕。这意味着问题不是模型"忘记"了信息,而是它在多轮交互的上下文中失去了对任务的整体把握能力。
论文标题很有意思——"LLMs Get Lost In Multi-Turn Conversation",直译过来就是"大语言模型在多轮对话中迷路了"。
这个比喻很精准。就像我们在导航时走错了路,即使重新定位到正确的地图,也容易因为上下文错乱而继续南辕北辙。AI模型在多轮对话中似乎也会遇到类似的"认知迷失"。
新模型也没好到哪去
一个更令人不安的发现是:这个问题在GPT-5这样的新模型上依然存在,只是从39%的降幅缩小到了33%。
也就是说,两年的技术迭代,这个问题仅仅改善了6个百分点。
这给我们敲响了警钟:Scaling Law不是万能的。单纯增加参数、扩大上下文窗口、提升训练数据规模,并不能解决所有问题。某些基础能力缺陷,可能需要更根本的架构或训练方法上的创新。
我们该怎么办?
既然问题短期内无法彻底解决,研究者也给出了一些实用的建议:
-
遇到异常就重启:如果你发现模型开始胡说八道,最有效的办法不是继续纠正,而是直接开启新对话
-
先总结再行动:在长对话中,可以时不时让模型总结一下当前的上下文和目标
-
优先用单次提示词:对于复杂任务,尽量把所有信息整理成结构化的一次性提示,而不是分多次逐步给出
-
对多轮结果保持怀疑:如果任务很重要,最好用单轮验证的方式再检查一遍
为什么这很重要?
你可能会说:"那我就一次性把需求说清楚不就行了?"
但现实场景中,这往往是不现实的。
想象一下,你在用AI助手写代码,你不可能一次性把所有需求都想清楚,需要在交互中逐步调整;你在用Agent完成复杂任务,信息本来就是逐步积累的;你在和AI做创意头脑风暴,整个过程的本质就是多轮对话。
多轮对话才是AI真正落地的关键场景。而这个问题,恰恰发生在这些场景的核心环节。
写在最后
这项研究让我想起了2023年GPT-4刚出来时,我们以为AGI就在眼前的那种乐观。但几年下来,我们逐渐认识到:通往AGI的道路上,还有很多我们甚至没有预料到的坑。
多轮对话的性能崩溃只是其中一个。它提醒我们,在兴奋于大模型能力飞速提升的同时,也要冷静地审视它们的局限性。
毕竟,知道不知道,比不知道不知道,要强太多了。
本文提到的研究论文《LLMs Get Lost In Multi-Turn Conversation》已在arXiv发布,感兴趣的朋友可以去看看原文。