百万Token只要一分钱?国产推理芯片启望S3发布,AI推理成本暴跌90%
今天科技圈最炸裂的新闻,非曦望莫属了。
这家刚完成30亿融资的国产GPU厂商,在杭州举办的首届Sunrise GPU Summit上,正式发布了新一代推理GPU芯片——启望S3。但真正让业界震惊的,是他们喊出的那个「百万Token只要一分钱」的口号。
你没看错,是0.01元,不是1元。
作为科技博主,我第一时间研究了启望S3的技术细节。这是一款面向大模型推理深度定制的GPGPU芯片,通过芯片架构、存储体系和系统协同的全方位优化,实现了十倍以上的推理性价比提升。简单来说,就是单位Token推理成本较上一代降低了约90%。
这背后有几个关键技术突破:
首先,启望S3支持从FP16到FP4的灵活多精度切换。这意味着在保证模型精度的前提下,可以大幅降低计算复杂度。FP4精度的应用,让很多推理场景的算力需求直接腰斩。
其次,这款芯片是国内首款采用LPDDR6内存解决方案的GPGPU,内存容量直接提升了4倍。对大模型推理来说,显存带宽和容量从来都是瓶颈,这个突破非常关键。
曦望还同步推出了「寰望SC3-256」超节点方案,专门适配千亿、万亿级参数的多模态MoE推理场景。简单理解,就是把256块启望S3组合起来,形成一个超级计算单元,专门处理超大模型的推理需求。
更值得关注的是,曦望没有自己单打独斗,而是联合商汤科技、第四范式等生态伙伴,共同发起「百万Token一分钱」推理成本计划。他们还和浙江大学签署了战略合作协议,成立了「智能计算联合研发中心」。
这种生态化打法,让我想到了当年英伟达CUDA生态的崛起路径。
从产业角度来看,启望S3的发布恰逢其时。大模型行业正在从「能不能跑」走向「算不算得过账」的阶段。2024年之前,大家都在卷模型参数、卷训练效果;2025年开始,越来越多的企业开始关心推理成本、响应速度、部署规模这些更务实的指标。
启望S3本质上是在回答一个核心问题:AI推理的成本底线在哪里?
如果「百万Token一分钱」真的能够大规模落地,意味着什么?
最直接的影响,是AI应用可以普及到更多场景。目前很多企业想用AI,但一算账就被高昂的推理成本劝退。如果成本降低90%,很多原本不划算的场景就变得可行了。
想象一下,一个中小型企业,每个月只需要几百块钱,就能让千万级的用户享受到AI客服服务。或者一个内容平台,可以用极低的成本,给每个用户生成个性化推荐。
更深层次的影响,是全球AI芯片竞争格局的变化。长期以来,推理GPU市场基本被英伟达垄断,国产芯片能拿到的份额很小。但如果启望S3真的实现了「百万Token一分钱」的极致性价比,那可能会重塑整个市场的定价逻辑。
当然,喊口号容易,落地难。启望S3能否真正实现目标,还需要看几个关键指标:
第一,量产能力和供货稳定性。芯片行业有个说法,「样片算数,量产才算」。30亿融资不少,但芯片制造是真正的烧钱大户,产能爬坡、供应链管理都是硬仗。
第二,软件生态和迁移成本。企业现有的推理系统大部分是基于英伟达CUDA生态的,迁移到曦望的平台需要投入大量时间和人力。曦望能不能提供完善的迁移工具和优化服务,将直接影响客户的决策。
第三,性能表现的真实度。单位Token成本降低90%,听起来很美好,但需要第三方机构的客观测试和验证。不同模型、不同场景下的表现可能会有差异。
不过,无论结果如何,曦望这次都做了一个正确的事:把推理成本摆在了台面上,让大家开始算账,开始思考AI应用的商业可持续性。
2026年,AI行业可能真的要进入「下半场」了。上半场卷模型,下半场卷成本。
启望S3只是开始,接下来我们可能会看到更多围绕推理成本优化的产品和服务出现。这对于整个AI产业的健康发展,无疑是件好事。
最后说句题外话,看到国产芯片在推理领域这样的突破,还是挺让人欣慰的。虽然在训练GPU领域我们和顶尖水平还有差距,但在推理这个更贴近实际应用的场景,国产厂商有机会弯道超车。
毕竟,AI的终局不是看谁的模型最大、参数最多,而是看谁能把AI以最低的成本、最好的体验,送到最需要它的人手里。
启望S3能不能做到「百万Token一分钱」?时间会给我们答案。但至少有人敢这么想、敢这么做,这就值得鼓掌。
我们拭目以待。