Claude Sonnet 4.5以77.2%登顶SWE-bench,编程模型的新标杆
Claude Sonnet 4.5在SWE-bench Verified上以77.2%领先,成为目前最佳编程模型,编程能力显著提升。
编程能力一直是评估大语言模型的重要指标,而SWE-bench Verified是其中最权威的基准之一。最近的消息显示,Claude Sonnet 4.5在SWE-bench Verified上以77.2%的得分领先,成为目前最佳编程模型。
77.2%这个数字相当惊人。要知道SWE-bench Verified是个很严格的测试,它要求模型能够真正理解和修改代码,而不仅仅是生成代码片段。能取得这样的成绩,说明Claude 4.5在代码理解、调试、重构这些实际编程任务上确实有突破。
这对开发者来说是个好消息。编程助手已经从“锦上添花”变成了很多开发者的日常工具。如果Claude 4.5真的这么强,那可能会进一步提高开发效率,减少debug时间,甚至在某些场景下可以自动完成一些复杂的编码任务。
但我也有一些思考。首先,benchmark成绩只是一个方面,实际使用中的体验可能因人而异。有些开发者可能更喜欢GPT系列在代码生成上的风格,或者更习惯某个IDE的集成。其次,Anthropic作为模型公司,其商业模式和长期可持续性也是开发者需要考虑的——万一哪天Claude不好用了怎么办?
不过整体来看,编程模型能力的快速提升是个明确趋势。从早期的GPT-4代码能力一般,到现在Claude 4.5能在SWE-bench上拿第一,说明这个领域的竞争非常激烈,也推动着整个行业向前发展。