智谱GLM-5横空出世:744B参数的国之光,用DSA稀疏注意力硬刚GPT-5.3
智谱GLM-5横空出世:744B参数的国之光,用DSA稀疏注意力硬刚GPT-5.3
这周AI圈真是热闹非凡啊。
2月11日深夜,当大多数人还沉浸在春节假期的余韵中时,智谱AI悄悄放出了一颗重磅炸弹——GLM-5。这玩意儿一出,整个中文技术圈都炸锅了。
为什么这么激动?让我慢慢给你们捋一捋。
先说几个关键数字
- 744B参数:你没看错,就是7440亿,比GPT-3.5的1750亿还要大4倍多
- 仅激活40B:神奇的是,虽然总参数量巨大,但GLM-5在推理时只需要激活400亿参数
- 开源第一:在Artificial Analysis榜单上,全球第四、开源第一
- 单日暴涨42%:智谱股价因为这个发布,一天就涨了42%
这些数字背后,到底是什么黑科技?
DSA稀疏注意力机制:核心技术突破
说实话,我刚开始看到744B参数的时候,第一反应是:这也太大了吧?训练成本得多高啊?部署得多贵啊?
但GLM-5给了一个颠覆性的答案——DSA(Dynamic Sparse Attention)稀疏注意力机制。
简单说,就是模型不是每次都把所有参数都算一遍,而是动态地选择哪些神经元需要激活。这就好比一个拥有744个房间的豪华酒店,但客人来了以后,只会打开那40个真正需要的房间,其他房间就处于休眠状态,省电又高效。
而且,根据公开的技术报告,GLM-5只用了20B token的训练量,就追平了其他模型用数百亿token训练的效果。这效率,真的是没谁了。
阮一峰实测:跟GPT-5.3掰手腕
说到这里,肯定有人会问:参数大就一定强吗?
这不,技术圈大佬阮一峰老师亲自下场测试了。他用的测试题和HuggingFace布道师测试Claude Opus 4.6和GPT-5.3的题目一模一样,都是四道真实世界的编程任务:
- 网页设计与重构:把一个简陋的信息堆叠页面改造成专业感十足的网站
- 3D沙盒动画生成:写一个可交互的3D场景
- 网页游戏开发:完整的一个小游戏
- 框架迁移:从Laravel转换到Next.js
结果如何?阮一峰说GLM-5在编程任务上"逼近"了闭源的Claude Opus 4.6和GPT-5.3。要知道,这可是一个开源模型啊!
更厉害的是,GLM-5不只是生成代码,还展现了系统重构、长程调试和端到端交付的能力。这说明什么?说明它已经开始从"会写代码"向"会做项目"进化了。
完全中国自研,适配7大国产芯片
这个点我觉得特别重要,必须单独拿出来说说。
之前总有人说,国产大模型是不是套壳的?是不是改改别人的?现在智谱直接把GLM-5的技术细节全部公开了,论文名字就叫《告别Vibe Coding,迈入智能体工程(Agentic Engineering)》,明明白白告诉你:这就是我们自己的东西。
而且,GLM-5已经完成了与华为昇腾、寒武纪等7大国产芯片平台的适配。这意味着什么?意味着我们可以用自己的芯片跑自己的大模型,不再受制于人。
对于开发者来说,这意味着什么?意味着可以用更低的成本、更稳定的网络环境,部署一个世界级的开源大模型。
从ChatGPT到智能体的时代转变
回到今天日经中文网那篇文章,标题就是《AI的下一步:智能体》。文章里提到,大语言模型目前主要的应用形态是ChatGPT这样的聊天机器人,但更加有用的机器智能应该能够像一个智能体一样,理解和执行复杂任务。
而GLM-5的发布,恰恰印证了这一点。它的技术报告里就提到,这是从"Vibe Coding"到"Agentic Engineering"的转变——从凭感觉写代码,到智能体工程化。
这不是在写代码,这是在培养能够独立完成任务的AI助手啊!
我的看法
作为一个关注AI好几年的技术博主,我对GLM-5的感受是复杂的:
一方面,为中国终于有了一个真正世界级的开源大模型而感到兴奋。744B参数、DSA稀疏注意力、国产芯片适配,这些技术突破每一个都让人热血沸腾。
另一方面,我也有些担忧。744B参数的模型,虽然推理时只需要激活40B,但训练成本依然高得吓人。而且,参数量越大,过拟合的风险是不是也越高?这些问题都需要时间来验证。
但不管怎么说,GLM-5的发布,标志着国产大模型已经从"追赶"阶段进入了"并跑",甚至在某些领域开始"领跑"。这对于整个中文AI生态来说,都是一件大好事。
对开发者的建议
如果你是开发者,我的建议是:
- 去试试GLM-5:不管你用不用它,至少得体验一下,感受一下世界级开源模型的力量
- 关注Agent能力:GLM-5在Agent和长程任务上的表现,可能代表了未来AI发展的方向
- 考虑国产化部署:如果你有敏感数据,或者对数据隐私有要求,国产化的部署方案值得考虑
- 保持学习:AI技术发展太快了,GLM-5可能是今天的SOTA,但明天可能就有新的模型出来
写在最后
智谱GLM-5的发布,让我想起一句话:在中国,从来都不缺技术,缺的是给技术足够的时间和空间。
从Transformer架构的提出,到ChatGPT的横空出世,再到今天GLM-5的惊艳亮相,AI技术正在以前所未有的速度发展。而中国,正在这场技术革命中,扮演越来越重要的角色。
未来会怎样?我不知道。但我知道,GLM-5已经让我们看到了,中国AI的实力和潜力。
下一个里程碑,会是什么呢?我们拭目以待。
PS:如果你想看看GLM-5的实测结果,可以去阮一峰的博客看看那篇《智谱旗舰GLM-5实测:对比Opus 4.6和GPT-5.3-Codex》,里面有详细的测试过程和结果。