ADMIN

2026年2月4日

61 Views

8 min read

腾讯姚顺雨首秀：大模型平均分17.2%的背后，我们错在哪儿了？

腾讯姚顺雨团队发布CL-bench评测基准，揭示当前大语言模型在'上下文学习'方面的严重短板：平均分仅17.2%。这不仅是姚顺雨加入腾讯后的首秀成果，更是对AI行业的一记警醒——我们的AI还不会真正地'学习'。

大语言模型腾讯混元姚顺雨 CL-bench 上下文学习 AI评测腾讯 AI研究

姚顺雨的腾讯首秀，给了所有AI从业者一记响亮的耳光

今天中午，当我在36氪刷到这篇报道时，差点把刚喝进嘴里的咖啡喷出来——腾讯混元团队发布了CL-bench评测基准，而测试结果简直是灾难性的：当前最先进的语言模型，平均分只有17.2%。

等等，这可是2026年啊！我们的AI不是已经能写代码、解奥数题、通过医学考试了吗？为什么在一个听起来很基础的"从上下文学习"任务上，会表现得如此拉胯？

先搞清楚：CL-bench到底测了什么？

简单说，CL-bench就是给AI出一道道"阅读理解题"——但不是那种问"这篇文章的主旨是什么"的简单题目，而是真正的"从上下文中学习并应用新知识"。

这个基准包含500个精心设计的任务：

每个任务平均10.4k token，最长的达到65k
涵盖领域知识推理、规则系统应用、流程执行、经验发现四大类
总共1899个任务、31607个验证标准

关键是：所有解决问题需要的信息都显式地提供在上下文里，不需要外部检索，也不允许"偷看"预训练数据。

这就好比老师给了你一本教材，让你当场学会新知识并解题。听起来不难对吧？但AI的表现告诉我们——难于上青天。

17.2%这个数字意味着什么？

让我用更直观的方式解释：

如果考试满分100分，17.2分意味着什么？

你连基础题都做不对
更别提那些需要思考的应用题了
这和"及格"完全是两个世界

而这还是当前最先进的模型！如果是我们日常使用的GPT-5.2、Claude 4.5、文心一言这些，表现可能更糟。

为什么这事儿这么重要？

很多人可能会问："AI现在已经够强了，这个17.2%有什么意义？"

错了，这才是真正的意义。

回想一下你使用AI的场景：

你写prompt时，是不是总在纠结"该怎么描述"？
你给AI上传文档让它总结，它是不是经常漏掉关键信息？
你问一个需要上下文推理的问题，它是不是答非所问？

这些问题，根源都在"上下文学习"能力不足上。

姚顺雨在2025年4月的那篇博文《下半场》里就说过：AI的上半场是"预训练+微调"，但下半场的核心是"定义问题"和"设计评估"。现在看来，他不是在说空话。

腾讯这次为什么能抓住这个痛点？

说实话，看到姚顺雨这个名字，我一点都不意外。

如果你关注过他的履历，就会知道：

曾是OpenAI的核心研究员
专注于语言模型的评估和对齐问题
在"如何让AI真正理解人类意图"这个方向上深耕多年

2025年11月，他加入腾讯混元担任首席AI科学家。当时很多人在猜：他会带来什么？50天后，答案来了——CL-bench。

这个基准最厉害的地方不是它的难度，而是它的诚实。

很多公司的benchmark都是精心调教出来的"成绩单"，但CL-bench直接告诉大家：看，你们的AI连这个都做不好，别吹了。

我的一点思考：AI的"学霸"vs"学习高手"

用个不太恰当但很形象的比喻：

现在的AI就像一个背了所有百科全书的学生——如果你问他问题，他能回答，因为"背过"了。但如果你给他一本新教材，让他当场学习并解题，他就懵了。

真正的学习高手不是这样的。他们能快速从新信息中提取知识、理解规律、举一反三。

而我们需要的，恰恰是这种能力。

想象一下：

给AI一个企业的内部文档，它能立刻成为行业专家
给AI一套新的编程语言规范，它能马上写出代码
给AI一个人的病历，它能提供精准的治疗建议

这些场景，都离不开"上下文学习"。

下一步会怎样？

姚顺雨团队在论文中也提到："模型如何记忆很可能成为2026年大模型发展的另一个核心主题。一旦上下文学习与记忆变得可靠，模型或许就能实现自主学习。"

这句话值得反复琢磨。

如果AI能真正"学习"而不仅仅是"背诵"，那么：

个性化AI将成为可能——它不是根据预设参数调整，而是真正理解你的需求
领域专家AI将不再是梦想——给它资料，它就是专家
自主学习的AI——这已经接近AGI的定义了

对我们普通用户意味着什么？

短期来看，这个消息可能让你觉得"AI还不如我想象的强"。

但从另一个角度想：AI终于找到了正确的进化方向。

2023-2024年，大家都在卷参数、卷算力、卷SOTA排行榜。但2026年的今天，我们开始关注更本质的问题：AI到底能不能真正"学习"？

这就像：以前大家都在比谁背的课文多，现在开始比谁的理解能力强了。

写在最后

姚顺雨加入腾讯50天就交出了这样一份答卷，让人对他的后续工作充满期待。

而CL-bench这个17.2%的分数，与其说是"失败"，不如说是一个诚实的起点。

至少我们现在知道了：大模型的问题不是参数不够多、不是算力不够强，而是它还不会学习。

找到问题，就是解决问题的第一步。

你说呢？

P.S. 如果你对CL-bench的细节感兴趣，可以去腾讯混元官网查看完整论文。我准备自己跑几个任务试试，看看我常用的AI能得多少分。感兴趣的可以在评论区聊聊你的测试结果！