logo
  • AI Image Generator
  • AI Chat
  • Nano Banana ProAD
  • Blog
Back to List
ADMIN
2026年2月4日
61 Views
8 min read

腾讯姚顺雨首秀:大模型平均分17.2%的背后,我们错在哪儿了?

腾讯姚顺雨团队发布CL-bench评测基准,揭示当前大语言模型在'上下文学习'方面的严重短板:平均分仅17.2%。这不仅是姚顺雨加入腾讯后的首秀成果,更是对AI行业的一记警醒——我们的AI还不会真正地'学习'。

姚顺雨的腾讯首秀,给了所有AI从业者一记响亮的耳光

今天中午,当我在36氪刷到这篇报道时,差点把刚喝进嘴里的咖啡喷出来——腾讯混元团队发布了CL-bench评测基准,而测试结果简直是灾难性的:当前最先进的语言模型,平均分只有17.2%

等等,这可是2026年啊!我们的AI不是已经能写代码、解奥数题、通过医学考试了吗?为什么在一个听起来很基础的"从上下文学习"任务上,会表现得如此拉胯?

先搞清楚:CL-bench到底测了什么?

简单说,CL-bench就是给AI出一道道"阅读理解题"——但不是那种问"这篇文章的主旨是什么"的简单题目,而是真正的"从上下文中学习并应用新知识"。

这个基准包含500个精心设计的任务:

  • 每个任务平均10.4k token,最长的达到65k
  • 涵盖领域知识推理、规则系统应用、流程执行、经验发现四大类
  • 总共1899个任务、31607个验证标准

关键是:所有解决问题需要的信息都显式地提供在上下文里,不需要外部检索,也不允许"偷看"预训练数据。

这就好比老师给了你一本教材,让你当场学会新知识并解题。听起来不难对吧?但AI的表现告诉我们——难于上青天。

17.2%这个数字意味着什么?

让我用更直观的方式解释:

如果考试满分100分,17.2分意味着什么?

  • 你连基础题都做不对
  • 更别提那些需要思考的应用题了
  • 这和"及格"完全是两个世界

而这还是当前最先进的模型!如果是我们日常使用的GPT-5.2、Claude 4.5、文心一言这些,表现可能更糟。

为什么这事儿这么重要?

很多人可能会问:"AI现在已经够强了,这个17.2%有什么意义?"

错了,这才是真正的意义。

回想一下你使用AI的场景:

  • 你写prompt时,是不是总在纠结"该怎么描述"?
  • 你给AI上传文档让它总结,它是不是经常漏掉关键信息?
  • 你问一个需要上下文推理的问题,它是不是答非所问?

这些问题,根源都在"上下文学习"能力不足上。

姚顺雨在2025年4月的那篇博文《下半场》里就说过:AI的上半场是"预训练+微调",但下半场的核心是"定义问题"和"设计评估"。现在看来,他不是在说空话。

腾讯这次为什么能抓住这个痛点?

说实话,看到姚顺雨这个名字,我一点都不意外。

如果你关注过他的履历,就会知道:

  • 曾是OpenAI的核心研究员
  • 专注于语言模型的评估和对齐问题
  • 在"如何让AI真正理解人类意图"这个方向上深耕多年

2025年11月,他加入腾讯混元担任首席AI科学家。当时很多人在猜:他会带来什么?50天后,答案来了——CL-bench

这个基准最厉害的地方不是它的难度,而是它的诚实

很多公司的benchmark都是精心调教出来的"成绩单",但CL-bench直接告诉大家:看,你们的AI连这个都做不好,别吹了。

我的一点思考:AI的"学霸"vs"学习高手"

用个不太恰当但很形象的比喻:

现在的AI就像一个背了所有百科全书的学生——如果你问他问题,他能回答,因为"背过"了。但如果你给他一本新教材,让他当场学习并解题,他就懵了。

真正的学习高手不是这样的。他们能快速从新信息中提取知识、理解规律、举一反三。

而我们需要的,恰恰是这种能力。

想象一下:

  • 给AI一个企业的内部文档,它能立刻成为行业专家
  • 给AI一套新的编程语言规范,它能马上写出代码
  • 给AI一个人的病历,它能提供精准的治疗建议

这些场景,都离不开"上下文学习"。

下一步会怎样?

姚顺雨团队在论文中也提到:"模型如何记忆很可能成为2026年大模型发展的另一个核心主题。一旦上下文学习与记忆变得可靠,模型或许就能实现自主学习。"

这句话值得反复琢磨。

如果AI能真正"学习"而不仅仅是"背诵",那么:

  • 个性化AI将成为可能——它不是根据预设参数调整,而是真正理解你的需求
  • 领域专家AI将不再是梦想——给它资料,它就是专家
  • 自主学习的AI——这已经接近AGI的定义了

对我们普通用户意味着什么?

短期来看,这个消息可能让你觉得"AI还不如我想象的强"。

但从另一个角度想:AI终于找到了正确的进化方向

2023-2024年,大家都在卷参数、卷算力、卷SOTA排行榜。但2026年的今天,我们开始关注更本质的问题:AI到底能不能真正"学习"?

这就像:以前大家都在比谁背的课文多,现在开始比谁的理解能力强了。

写在最后

姚顺雨加入腾讯50天就交出了这样一份答卷,让人对他的后续工作充满期待。

而CL-bench这个17.2%的分数,与其说是"失败",不如说是一个诚实的起点

至少我们现在知道了:大模型的问题不是参数不够多、不是算力不够强,而是它还不会学习

找到问题,就是解决问题的第一步。

你说呢?


P.S. 如果你对CL-bench的细节感兴趣,可以去腾讯混元官网查看完整论文。我准备自己跑几个任务试试,看看我常用的AI能得多少分。感兴趣的可以在评论区聊聊你的测试结果!