## 39%的性能暴跌，打破幻想的一天

今天看到一条消息，有点让人措手不及。IT之家3月1日报道，一项由Philippe Laban团队主导的研究揭示了一个令人担忧的事实：**即便是GPT-5及后续版本，在多轮对话场景下，性能最高会下降39%**。

说实话，这个数字让我有点意外。毕竟在2026年的今天，大语言模型已经发展到什么程度了？参数规模动辄万亿级，上下文窗口动不动就几十万甚至上百万token，怎么还会在"多轮对话"这个看似基础的场景上栽跟头？

## 问题出在哪里？

研究人员做了一个很简单的对比实验：把同样的任务信息，一种方式是**拼接式**——全部塞进一个提示词里；另一种是**分片式**——拆分到多条消息中模拟真实对话场景。

结果？分片式场景下，模型的表现直接崩了。

测试涵盖了六大类任务：
- 代码
- 数据库操作
- 指令执行
- 数据转文本
- 数学计算
- 文本摘要

其中Python任务表现相对最好，性能损失在10%-20%之间，算是勉强能接受。但其他任务就惨不忍睹了，特别是操作指令和数据库查询，直接暴跌30%以上。

## 这不是简单的"遗忘"

很多人第一反应可能是："这不是理所当然的吗？对话聊多了，模型不就忘了前面的内容了？"

但问题的关键不在这里。

研究团队发现，即使把整个对话历史完整地喂给模型，它依然表现糟糕。这意味着问题不是模型"忘记"了信息，而是它在**多轮交互的上下文中失去了对任务的整体把握能力**。

论文标题很有意思——"LLMs Get Lost In Multi-Turn Conversation"，直译过来就是"大语言模型在多轮对话中迷路了"。

这个比喻很精准。就像我们在导航时走错了路，即使重新定位到正确的地图，也容易因为上下文错乱而继续南辕北辙。AI模型在多轮对话中似乎也会遇到类似的"认知迷失"。

## 新模型也没好到哪去

一个更令人不安的发现是：**这个问题在GPT-5这样的新模型上依然存在**，只是从39%的降幅缩小到了33%。

也就是说，两年的技术迭代，这个问题仅仅改善了6个百分点。

这给我们敲响了警钟：**Scaling Law不是万能的**。单纯增加参数、扩大上下文窗口、提升训练数据规模，并不能解决所有问题。某些基础能力缺陷，可能需要更根本的架构或训练方法上的创新。

## 我们该怎么办？

既然问题短期内无法彻底解决，研究者也给出了一些实用的建议：

1. **遇到异常就重启**：如果你发现模型开始胡说八道，最有效的办法不是继续纠正，而是直接开启新对话

2. **先总结再行动**：在长对话中，可以时不时让模型总结一下当前的上下文和目标

3. **优先用单次提示词**：对于复杂任务，尽量把所有信息整理成结构化的一次性提示，而不是分多次逐步给出

4. **对多轮结果保持怀疑**：如果任务很重要，最好用单轮验证的方式再检查一遍

## 为什么这很重要？

你可能会说："那我就一次性把需求说清楚不就行了？"

但现实场景中，这往往是不现实的。

想象一下，你在用AI助手写代码，你不可能一次性把所有需求都想清楚，需要在交互中逐步调整；你在用Agent完成复杂任务，信息本来就是逐步积累的；你在和AI做创意头脑风暴，整个过程的本质就是多轮对话。

**多轮对话才是AI真正落地的关键场景**。而这个问题，恰恰发生在这些场景的核心环节。

## 写在最后

这项研究让我想起了2023年GPT-4刚出来时，我们以为AGI就在眼前的那种乐观。但几年下来，我们逐渐认识到：**通往AGI的道路上，还有很多我们甚至没有预料到的坑**。

多轮对话的性能崩溃只是其中一个。它提醒我们，在兴奋于大模型能力飞速提升的同时，也要冷静地审视它们的局限性。

毕竟，知道不知道，比不知道不知道，要强太多了。

---

*本文提到的研究论文《LLMs Get Lost In Multi-Turn Conversation》已在arXiv发布，感兴趣的朋友可以去看看原文。*

Blog

39%的性能暴跌？GPT-5多轮对话翻车，研究揭示AI模型的致命软肋