Claude Sonnet 4.5以77.2%登顶SWE-bench，编程模型的新标杆

Claude Sonnet 4.5在SWE-bench Verified上以77.2%领先，成为目前最佳编程模型，编程能力显著提升。

编程能力一直是评估大语言模型的重要指标，而SWE-bench Verified是其中最权威的基准之一。最近的消息显示，Claude Sonnet 4.5在SWE-bench Verified上以77.2%的得分领先，成为目前最佳编程模型。

77.2%这个数字相当惊人。要知道SWE-bench Verified是个很严格的测试，它要求模型能够真正理解和修改代码，而不仅仅是生成代码片段。能取得这样的成绩，说明Claude 4.5在代码理解、调试、重构这些实际编程任务上确实有突破。

这对开发者来说是个好消息。编程助手已经从“锦上添花”变成了很多开发者的日常工具。如果Claude 4.5真的这么强，那可能会进一步提高开发效率，减少debug时间，甚至在某些场景下可以自动完成一些复杂的编码任务。

但我也有一些思考。首先，benchmark成绩只是一个方面，实际使用中的体验可能因人而异。有些开发者可能更喜欢GPT系列在代码生成上的风格，或者更习惯某个IDE的集成。其次，Anthropic作为模型公司，其商业模式和长期可持续性也是开发者需要考虑的——万一哪天Claude不好用了怎么办？

不过整体来看，编程模型能力的快速提升是个明确趋势。从早期的GPT-4代码能力一般，到现在Claude 4.5能在SWE-bench上拿第一，说明这个领域的竞争非常激烈，也推动着整个行业向前发展。

Related Posts