腾讯姚顺雨首秀:大模型平均分17.2%的背后,我们错在哪儿了?
姚顺雨的腾讯首秀,给了所有AI从业者一记响亮的耳光
今天中午,当我在36氪刷到这篇报道时,差点把刚喝进嘴里的咖啡喷出来——腾讯混元团队发布了CL-bench评测基准,而测试结果简直是灾难性的:当前最先进的语言模型,平均分只有17.2%。
等等,这可是2026年啊!我们的AI不是已经能写代码、解奥数题、通过医学考试了吗?为什么在一个听起来很基础的"从上下文学习"任务上,会表现得如此拉胯?
先搞清楚:CL-bench到底测了什么?
简单说,CL-bench就是给AI出一道道"阅读理解题"——但不是那种问"这篇文章的主旨是什么"的简单题目,而是真正的"从上下文中学习并应用新知识"。
这个基准包含500个精心设计的任务:
- 每个任务平均10.4k token,最长的达到65k
- 涵盖领域知识推理、规则系统应用、流程执行、经验发现四大类
- 总共1899个任务、31607个验证标准
关键是:所有解决问题需要的信息都显式地提供在上下文里,不需要外部检索,也不允许"偷看"预训练数据。
这就好比老师给了你一本教材,让你当场学会新知识并解题。听起来不难对吧?但AI的表现告诉我们——难于上青天。
17.2%这个数字意味着什么?
让我用更直观的方式解释:
如果考试满分100分,17.2分意味着什么?
- 你连基础题都做不对
- 更别提那些需要思考的应用题了
- 这和"及格"完全是两个世界
而这还是当前最先进的模型!如果是我们日常使用的GPT-5.2、Claude 4.5、文心一言这些,表现可能更糟。
为什么这事儿这么重要?
很多人可能会问:"AI现在已经够强了,这个17.2%有什么意义?"
错了,这才是真正的意义。
回想一下你使用AI的场景:
- 你写prompt时,是不是总在纠结"该怎么描述"?
- 你给AI上传文档让它总结,它是不是经常漏掉关键信息?
- 你问一个需要上下文推理的问题,它是不是答非所问?
这些问题,根源都在"上下文学习"能力不足上。
姚顺雨在2025年4月的那篇博文《下半场》里就说过:AI的上半场是"预训练+微调",但下半场的核心是"定义问题"和"设计评估"。现在看来,他不是在说空话。
腾讯这次为什么能抓住这个痛点?
说实话,看到姚顺雨这个名字,我一点都不意外。
如果你关注过他的履历,就会知道:
- 曾是OpenAI的核心研究员
- 专注于语言模型的评估和对齐问题
- 在"如何让AI真正理解人类意图"这个方向上深耕多年
2025年11月,他加入腾讯混元担任首席AI科学家。当时很多人在猜:他会带来什么?50天后,答案来了——CL-bench。
这个基准最厉害的地方不是它的难度,而是它的诚实。
很多公司的benchmark都是精心调教出来的"成绩单",但CL-bench直接告诉大家:看,你们的AI连这个都做不好,别吹了。
我的一点思考:AI的"学霸"vs"学习高手"
用个不太恰当但很形象的比喻:
现在的AI就像一个背了所有百科全书的学生——如果你问他问题,他能回答,因为"背过"了。但如果你给他一本新教材,让他当场学习并解题,他就懵了。
真正的学习高手不是这样的。他们能快速从新信息中提取知识、理解规律、举一反三。
而我们需要的,恰恰是这种能力。
想象一下:
- 给AI一个企业的内部文档,它能立刻成为行业专家
- 给AI一套新的编程语言规范,它能马上写出代码
- 给AI一个人的病历,它能提供精准的治疗建议
这些场景,都离不开"上下文学习"。
下一步会怎样?
姚顺雨团队在论文中也提到:"模型如何记忆很可能成为2026年大模型发展的另一个核心主题。一旦上下文学习与记忆变得可靠,模型或许就能实现自主学习。"
这句话值得反复琢磨。
如果AI能真正"学习"而不仅仅是"背诵",那么:
- 个性化AI将成为可能——它不是根据预设参数调整,而是真正理解你的需求
- 领域专家AI将不再是梦想——给它资料,它就是专家
- 自主学习的AI——这已经接近AGI的定义了
对我们普通用户意味着什么?
短期来看,这个消息可能让你觉得"AI还不如我想象的强"。
但从另一个角度想:AI终于找到了正确的进化方向。
2023-2024年,大家都在卷参数、卷算力、卷SOTA排行榜。但2026年的今天,我们开始关注更本质的问题:AI到底能不能真正"学习"?
这就像:以前大家都在比谁背的课文多,现在开始比谁的理解能力强了。
写在最后
姚顺雨加入腾讯50天就交出了这样一份答卷,让人对他的后续工作充满期待。
而CL-bench这个17.2%的分数,与其说是"失败",不如说是一个诚实的起点。
至少我们现在知道了:大模型的问题不是参数不够多、不是算力不够强,而是它还不会学习。
找到问题,就是解决问题的第一步。
你说呢?
P.S. 如果你对CL-bench的细节感兴趣,可以去腾讯混元官网查看完整论文。我准备自己跑几个任务试试,看看我常用的AI能得多少分。感兴趣的可以在评论区聊聊你的测试结果!