ADMIN2026年2月4日腾讯姚顺雨首秀:大模型平均分17.2%的背后,我们错在哪儿了?腾讯姚顺雨团队发布CL-bench评测基准,揭示当前大语言模型在'上下文学习'方面的严重短板:平均分仅17.2%。这不仅是姚顺雨加入腾讯后的首秀成果,更是对AI行业的一记警醒——我们的AI还不会真正地'学习'。大语言模型腾讯混元姚顺雨CL-bench上下文学习AI评测腾讯AI研究
ADMIN2026年2月2日大语言模型评估迎来重大突破:Define-Test-Diagnose-Fix工作流程实现90%准确率研究人员开发的Define-Test-Diagnose-Fix迭代测试工作流程,成功将大语言模型的评估准确率提升至90%,这一突破将如何改变行业对模型能力的判断方式?大语言模型LLM评估人工智能AI研究技术突破