# 姚顺雨的腾讯首秀，给了所有AI从业者一记响亮的耳光

今天中午，当我在36氪刷到这篇报道时，差点把刚喝进嘴里的咖啡喷出来——腾讯混元团队发布了CL-bench评测基准，而测试结果简直是灾难性的：**当前最先进的语言模型，平均分只有17.2%**。

等等，这可是2026年啊！我们的AI不是已经能写代码、解奥数题、通过医学考试了吗？为什么在一个听起来很基础的"从上下文学习"任务上，会表现得如此拉胯？

## 先搞清楚：CL-bench到底测了什么？

简单说，CL-bench就是给AI出一道道"阅读理解题"——但不是那种问"这篇文章的主旨是什么"的简单题目，而是真正的"从上下文中学习并应用新知识"。

这个基准包含500个精心设计的任务：
- 每个任务平均10.4k token，最长的达到65k
- 涵盖领域知识推理、规则系统应用、流程执行、经验发现四大类
- 总共1899个任务、31607个验证标准

关键是：**所有解决问题需要的信息都显式地提供在上下文里**，不需要外部检索，也不允许"偷看"预训练数据。

这就好比老师给了你一本教材，让你当场学会新知识并解题。听起来不难对吧？但AI的表现告诉我们——难于上青天。

## 17.2%这个数字意味着什么？

让我用更直观的方式解释：

如果考试满分100分，17.2分意味着什么？
- 你连基础题都做不对
- 更别提那些需要思考的应用题了
- 这和"及格"完全是两个世界

而这还是当前最先进的模型！如果是我们日常使用的GPT-5.2、Claude 4.5、文心一言这些，表现可能更糟。

## 为什么这事儿这么重要？

很多人可能会问："AI现在已经够强了，这个17.2%有什么意义？"

**错了，这才是真正的意义。**

回想一下你使用AI的场景：
- 你写prompt时，是不是总在纠结"该怎么描述"？
- 你给AI上传文档让它总结，它是不是经常漏掉关键信息？
- 你问一个需要上下文推理的问题，它是不是答非所问？

这些问题，根源都在"上下文学习"能力不足上。

姚顺雨在2025年4月的那篇博文《下半场》里就说过：AI的上半场是"预训练+微调"，但下半场的核心是"定义问题"和"设计评估"。现在看来，他不是在说空话。

## 腾讯这次为什么能抓住这个痛点？

说实话，看到姚顺雨这个名字，我一点都不意外。

如果你关注过他的履历，就会知道：
- 曾是OpenAI的核心研究员
- 专注于语言模型的评估和对齐问题
- 在"如何让AI真正理解人类意图"这个方向上深耕多年

2025年11月，他加入腾讯混元担任首席AI科学家。当时很多人在猜：他会带来什么？50天后，答案来了——**CL-bench**。

这个基准最厉害的地方不是它的难度，而是它的**诚实**。

很多公司的benchmark都是精心调教出来的"成绩单"，但CL-bench直接告诉大家：看，你们的AI连这个都做不好，别吹了。

## 我的一点思考：AI的"学霸"vs"学习高手"

用个不太恰当但很形象的比喻：

**现在的AI就像一个背了所有百科全书的学生**——如果你问他问题，他能回答，因为"背过"了。但如果你给他一本新教材，让他当场学习并解题，他就懵了。

真正的学习高手不是这样的。他们能快速从新信息中提取知识、理解规律、举一反三。

而我们需要的，恰恰是这种能力。

想象一下：
- 给AI一个企业的内部文档，它能立刻成为行业专家
- 给AI一套新的编程语言规范，它能马上写出代码
- 给AI一个人的病历，它能提供精准的治疗建议

这些场景，都离不开"上下文学习"。

## 下一步会怎样？

姚顺雨团队在论文中也提到："模型如何记忆很可能成为2026年大模型发展的另一个核心主题。一旦上下文学习与记忆变得可靠，模型或许就能实现自主学习。"

这句话值得反复琢磨。

如果AI能真正"学习"而不仅仅是"背诵"，那么：
- **个性化AI**将成为可能——它不是根据预设参数调整，而是真正理解你的需求
- **领域专家AI**将不再是梦想——给它资料，它就是专家
- **自主学习的AI**——这已经接近AGI的定义了

## 对我们普通用户意味着什么？

短期来看，这个消息可能让你觉得"AI还不如我想象的强"。

但从另一个角度想：**AI终于找到了正确的进化方向**。

2023-2024年，大家都在卷参数、卷算力、卷SOTA排行榜。但2026年的今天，我们开始关注更本质的问题：**AI到底能不能真正"学习"？**

这就像：以前大家都在比谁背的课文多，现在开始比谁的理解能力强了。

## 写在最后

姚顺雨加入腾讯50天就交出了这样一份答卷，让人对他的后续工作充满期待。

而CL-bench这个17.2%的分数，与其说是"失败"，不如说是一个**诚实的起点**。

至少我们现在知道了：大模型的问题不是参数不够多、不是算力不够强，而是**它还不会学习**。

找到问题，就是解决问题的第一步。

你说呢？

---

*P.S. 如果你对CL-bench的细节感兴趣，可以去腾讯混元官网查看完整论文。我准备自己跑几个任务试试，看看我常用的AI能得多少分。感兴趣的可以在评论区聊聊你的测试结果！*

腾讯姚顺雨首秀：大模型平均分17.2%的背后，我们错在哪儿了？

今天，AI圈又传来一个令人兴奋的消息！研究人员开发出了一套名为"Define-Test-Diagnose-Fix"的迭代测试工作流程，成功将大语言模型的评估准确率提升到了90%。说实话，看到这个数字的时候，我第一反应是：这是真的吗？

## 为什么这个突破这么重要？

做过LLM开发的朋友都知道，评估一个模型的表现有多难。传统的基准测试虽然能给出一些数据，但往往不够全面，更别提精准了。有时候我们以为模型在某些任务上进步了，结果发现它在其他地方反而退步了——这就是典型的"顾此失彼"。

这个问题困扰了整个行业好长时间。想象一下，你辛辛苦苦调优了模型在代码生成方面的表现，结果发现它在理解自然语言推理时却变笨了。这不仅是时间上的浪费，更重要的是它让我们难以做出正确的产品决策。

## Define-Test-Diagnose-Fix 是什么？

这个新工作流程的核心思想其实很朴素，但执行起来需要相当的技巧。它把评估过程分成了四个明确的阶段：

1. **Define（定义）**：明确你要评估的具体能力和场景。不是泛泛地说"评估模型能力"，而是要具体到"评估模型在医疗文档摘要生成的准确性"。

2. **Test（测试）**：运行迭代测试，收集性能数据。这一步不是一次性的，而是需要反复进行，以获得可靠的结果。

3. **Diagnose（诊断）**：分析测试结果，找出问题所在。这里的关键是要能识别出模型在哪些方面存在不足，以及为什么会存在这些不足。

4. **Fix（修复）**：基于诊断结果进行针对性的优化。不是盲目地调参，而是有针对性地解决问题。

## 90%准确率意味着什么？

说句实话，能达到90%的评估准确率，这在行业内是一个相当高的标准。它意味着我们可以更自信地判断一个模型的实际能力，而不是依赖于那些可能会误导我们的通用基准。

更重要的是，这个工作流程揭示了一个被很多人忽视的问题：模型能力的提升往往是有代价的。在某一个维度上的优化，可能会在其他维度上带来负面影响。这就是为什么我们需要这样一套系统性的评估方法，而不是简单地看一两个排行榜上的分数。

## 对行业的影响

我认为这个突破可能会带来几个方面的改变：

**首先**，企业在选择或定制LLM时，将会有更可靠的依据。不再只是看供应商的宣传，而是可以基于具体的业务需求进行评估。

**其次**，研究方向的制定也会更加精准。当我们能够准确诊断出模型的问题所在时，研究资源就能投放到最需要的地方。

**最后**，这可能会推动整个行业对模型评估标准的重新思考。90%的准确率是一个标杆，但它同时也说明了：我们还有进步的空间。

## 一些个人思考

写到这里，我想起去年和一位AI研究员聊天时他说的话："大语言模型的评估，就像是在给一个不断进化的生物做体检。你今天测出来的结果，明天可能就不适用了。"

这个比喻其实很贴切。LLM在持续演进，我们的评估方法也需要与时俱进。Define-Test-Diagnose-Fix工作流程的价值，不在于它能给出一个固定的答案，而在于它提供了一套可以动态调整的框架。

当然，90%的准确率虽然令人印象深刻，但我们也要保持理性。这套方法的有效性还需要在更多的实际场景中验证，而且它的推广难度也不小——不是每个团队都有资源来实施这样一套复杂的评估流程。

## 写在最后

技术进步总是这样，一个问题解决了，新的问题又会浮现。但至少今天，我们可以庆祝一下在大语言模型评估这个关键领域取得的突破。

如果你对这套工作流程有更深的了解，或者已经在尝试实践，欢迎在评论区分享你的经验。毕竟，AI行业的发展离不开大家的集体智慧。

今天就聊到这里，下期再见！

Blog

腾讯姚顺雨首秀：大模型平均分17.2%的背后，我们错在哪儿了？

大语言模型评估迎来重大突破：Define-Test-Diagnose-Fix工作流程实现90%准确率