智谱GLM-5横空出世:744B参数的国之光,用DSA稀疏注意力硬刚GPT-5.3
智谱GLM-5横空出世!744B参数的国之光,凭借DSA稀疏注意力机制,仅激活40B即可达到Artificial Analysis指数50分,编程能力硬刚GPT-5.3。完全中国自研,已适配华为等7大国产芯片,在阮一峰实测中表现惊艳,标志着国产大模型从追赶进入并跑时代。
Read our latest articles and insights
智谱GLM-5横空出世!744B参数的国之光,凭借DSA稀疏注意力机制,仅激活40B即可达到Artificial Analysis指数50分,编程能力硬刚GPT-5.3。完全中国自研,已适配华为等7大国产芯片,在阮一峰实测中表现惊艳,标志着国产大模型从追赶进入并跑时代。
今天AI圈炸了!Arcee AI联合多家机构发布Trinity Large——400B参数的超稀疏混合专家大语言模型,完全开源。MoE架构让这个"巨无霸"在保持超大知识容量的同时,还能高效推理,这绝对是2026年开年最重磅的AI新闻之一。
今天阿里千问大模型宣布开源三款3.5中等规模模型,包括Qwen3.5-35B-A3B、Qwen3.5-122B-A10B和Qwen3.5-27B。最让人兴奋的是价格——每百万Token仅需0.2元!这个价格将大大降低大模型的使用门槛。文章深入分析了这三款模型的定位、技术突破以及对行业的影响,同时分享了作为技术博主的个人看法和期待。
沙利文最新报告显示,2025年下半年中国企业级大模型日均调用量达37万亿tokens,较上半年暴涨263%。阿里云千问以32.1%占比位居第一。这背后是Agent架构加速落地,推动AI从工具向「员工」转变的深刻变革。
沙利文最新报告显示,2025年下半年中国企业级大模型日均调用量飙升至37万亿tokens,较上半年增长263%。阿里云千问以32.1%的市场份额稳居第一,豆包和DeepSeek分列二三位。Agent架构加速落地和企业从一次性问答转向连续调用,成为推动增长的核心动力。
2026年2月,AI历史上从未有过的盛况:7个主流大模型将在同一个月内发布!包括Gemini 3 Pro、GPT-5.3、Qwen 3.5等重量级产品,这场史上最激烈的"模型大爆发"正在重塑AI产业格局。作为科技爱好者,我们究竟该期待什么?
一家24人的小公司,花了3000万美元,做出了一颗每秒17000个token的AI推理芯片——比Nvidia最快GPU快50倍。Taalas的HC1芯片把Llama 3.1 8B模型直接"刻进"硅片,用极致专用化的方式,向AI芯片领域发起了颠覆性的挑战。
春节期间,智谱AI、DeepSeek、MiniMax三大国产大模型巨头48小时内连发重磅产品,引发港股市场爆发。智谱暴涨42.72%突破3000亿港元市值,MiniMax 7日累计涨超110%。GLM-5、DeepSeek新版、M2.5齐发,标志着国产大模型进入头部竞争新阶段。
Google Research研究发现,简单重复提示词就能让大模型准确率从21%飙到97%。这个听起来离谱的发现,在70次测试中取得47胜0负的战绩,适用于几乎所有主流大模型,而且几乎不增加任何计算成本。本文带一探究竟,实测效果让人震惊。