ADMIN2026年2月8日ICLR 2026炸裂新成果:UIUC用一行代码解决LLM过度思考难题今天UIUC在ICLR 2026发布的Self-Aligned Reward (SAR)火了——用模型自身的困惑度来判断推理质量,一行代码搞定大语言模型的过度思考难题。实验显示,该方法不仅提升了准确率,还将推理长度缩短了30%-50%。大语言模型ICLR 2026LLM推理AI前沿强化学习UIUC