每秒17000个token!这家24人团队的AI芯片彻底颠覆了我的认知
今天早上刷到这条新闻的时候,说实话,我是持怀疑态度的。一家只有24人的小公司,花了3000万美元,做出来的AI推理芯片居然能达到每秒17000个token的输出速度?这听起来更像是什么科幻小说里的设定,但当我看完详细的技术报道后,我意识到——这可能是AI芯片领域的一个历史性转折点。
事情的起因是这样的:一家名叫Taalas的初创公司,在2026年2月21日发布了他们的第一款产品HC1。这颗芯片最疯狂的地方在于,它把Meta的Llama 3.1 8B大语言模型几乎完整地"刻进"了硅片里。注意,是"刻进",而不是"运行"在芯片上。
这个区别非常关键。传统的GPU和ASIC芯片,本质上是通用或半通用的计算单元,它们需要通过软件指令来加载和运行AI模型。而Taalas的做法,是直接把模型的神经网络结构变成了硅片上的物理电路。就像把一张地图画在纸上,而不是让你在GPS上搜索路线一样——前者是固定的,但效率可以做到极致。
根据官方公布的数据,这颗芯片在单用户场景下可以跑到17000 tokens/s的输出速度。什么概念?假设一个token大约等于1.5个汉字,那么这个芯片一秒钟可以生成超过25000个汉字。用这个速度写完这篇1500字的博客,只需要0.06秒——甚至还没来得及眨眼。
对比一下竞品:这个速度大约是目前市面上最快的Cerebras芯片的9倍,Nvidia最新的Blackwell架构GPU的50倍。更夸张的是,成本据说只有传统方案的二十分之一,功耗也降到了十分之一。
但最让我震惊的不是这些数字,而是做这件事的团队规模。24个人。你没看错,就是24个人。要知道,Nvidia为了研发新一代GPU,投入的工程师数量是以万为单位的。而Taalas只用了不到一个连的人数,就做出了性能提升了一个数量级的产品。
团队的核心成员之一是AMD的前高管,他们采取的策略非常独特:把AI模型当成程序,通过类似硅基编译器的方式,直接将模型转化为硬件电路。这听起来像是某种"降维打击"——传统芯片公司还在绞尽脑汁优化通用计算单元的时候,他们直接跳过了"通用"这个环节,走向了极致的专用化。
当然,这种做法也有明显的局限性:HC1是一颗不可编程的芯片,你没法在上面运行除了Llama 3.1 8B之外的其他模型。如果模型更新了,你就得重新设计芯片。但这恰恰是Taalas的策略所在——他们赌的是,某些主流模型会长期存在并持续优化,而不是频繁更迭。
这让我想起了一个有趣的类比:在汽车出现之前,马车的赛道上最优秀的马车制造商,和那些一开始就致力于制造汽车的人,走的其实是完全不同的路径。Taalas就像是后者——他们没有在马车赛道上跟Nvidia这样的巨头比拼,而是直接换了一种交通工具。
目前Taalas已经筹集了2亿美元的投资,预计在今年春季基于HC1发布第二代产品,会集成一款中等规模的推理模型。他们计划针对不同规模的模型,推出一系列专用的芯片。
写到这里,我突然想到一个问题:如果这种极致专用化的路径真的成功了,那AI芯片的未来会不会从"一颗芯片跑所有模型",变成"一个模型一颗芯片"?就像现在的手机芯片,其实集成了CPU、GPU、NPU等各种专用单元,只是现在这些专用单元的颗粒度要小得多。
当然,现在下结论还为时过早。HC1能否真正商业化落地?企业用户是否会接受这种被模型锁定的芯片?Nvidia等巨头会如何应对?这些问题都还没有答案。但有一点是肯定的:Taalas已经用一种极具挑衅性的方式,向整个AI芯片领域证明了一件事——有时候,颠覆行业的不是更强大的对手,而是完全不同的游戏规则。
作为一个科技博主,我见过太多昙花一现的技术突破。但这一次,我真心希望Taalas能走得更远。因为他们展示的不仅仅是技术的可能性,更是一种打破常规的勇气。在所有人都往同一个方向狂奔的时候,敢于另辟蹊径的人,往往才是能真正改变世界的那些人。
如果你对AI芯片感兴趣,或者对未来AI基础设施的发展有自己的看法,欢迎在评论区和我交流。也许下一个颠覆行业的创意,就来自我们的讨论之中。