logo
  • AI Image Generator
  • AI Chat
  • Nano Banana ProAD
  • Blog
Back to List
ADMIN
2026年2月20日
12 Views
6 min read

三个月从31%飙升到77%!Google Gemini 3.1 Pro的这个突破,让我重新思考AI的天花板在哪儿

就在半年前,还有不少声音嚷嚷着'大模型遇到天花板了',结果Gemini 3.1 Pro今天一出手,直接在ARC-AGI-2测试中拿下了77%的恐怖分数。更让人震惊的是,它的幻觉率竟然被砍掉了一半。三个月时间,从31%到77%,这样的跃升速度让人眩晕——我们是否正在见证AI技术的又一次质变?

今天下午打开科技新闻,直接就被Google的一条重磅消息给震住了。

Gemini 3.1 Pro正式发布,ARC-AGI-2得分77.1%

说实话,看到这个数字的第一反应是——我眼花了?赶紧又确认了几遍,没错,就是77.1%。

要知道,就在三个月前,这个分数还只有31%。三个月时间,从三成多直接飙升到接近八成,这是什么概念?相当于一个学生从勉强及格突然变成了学霸级水平。而且这不是在某个细分的、容易刷分的测试上,而是在被誉为"AI智商试金石"的ARC-AGI-2基准上。

ARC-AGI-2是什么来头?它是专门用来测试模型"泛化推理能力"的,简单说就是考AI解决从未见过的逻辑问题的能力。在这个测试上拿高分,意味着模型真正学会了"思考",而不是在背诵训练数据。

让我更震惊的,是第二个数字

如果说77%的分数证明了Gemini 3.1 Pro有多"聪明",那么另一个指标则证明了它有多"可靠"——幻觉率被成功砍掉了一半

作为一个整天和AI打交道的人,我太知道这个进步有多重要了。大模型最大的痛点是什么?是它一本正经地胡说八道。你问它一个不懂的问题,它可能编造出看起来很合理、实际上完全错误的内容。这种现象叫"hallucination",是AI落地应用的最大障碍之一。

现在,Gemini 3.1 Pro直接把幻觉率腰斩了。这意味着什么?意味着AI终于学会了说"我不知道"。当它不确定的时候,它会更诚实地承认,而不是硬编。

竞争对手都慌了吗?

来看看这个77.1%在行业里是什么水平:

  • Anthropic最新的Claude Opus 4.6:68.8%
  • GPT-5.2:约53%
  • 之前的Gemini 3 Pro:约35%

Gemini 3.1 Pro不仅领先,而且领先得很明显。特别是在与GPT-5.2的对比中,高出24%的差距不是小打小闹,这是代际级别的优势。

值得一提的是,它的成本控制也相当不错——每个任务成本约0.96美元,在顶级模型中算是性价比很高的了。

我的几点思考

看完这些数据,我有几个不成熟的观察:

第一,大模型的"天花板"可能压根就不存在。

半年前,很多人(包括我在内)都在讨论大模型是不是已经触碰到技术瓶颈了。性能提升放缓、边际效益递减、各种参数堆砌带来的提升越来越不明显......这些问题都很真实。但Gemini 3.1 Pro告诉我们,瓶颈可能是方法论的问题,而不是技术本身的问题。当你找到对的路径,提升空间依然巨大。

第二,AI正在从"知识库"向"思考者"进化。

ARC-AGI-2上的突破,说明AI不再只是检索和重组已知信息,而是学会了真正意义上的推理。这才是通向AGI(通用人工智能)的关键一步。

第三,"靠谱"比"聪明"更重要。

幻觉率的降低,可能比纯性能的提升更有实际意义。企业愿意在什么场景用AI?不是能写出漂亮诗歌的AI,而是不会乱编数据的AI。可靠性是AI落地的入场券,而现在,入场券的门槛降低了。

写在最后

今天下午看到这条新闻的时候,我突然想起2022年底ChatGPT刚发布时的心情——那种"历史正在我们眼前发生"的震撼感。

三年过去了,这种感觉依然还在。

也许AI的发展不会是一条直线,中间会有停滞、有质疑、有迷茫。但每当人们以为"差不多就这样了吧"的时候,总会有新的突破提醒我们:我们可能只是站在了一个新纪元的起点。

好了,今天的分享就到这里。接下来我会找机会深度体验一下Gemini 3.1 Pro,看看它的实际表现到底如何。感兴趣的朋友可以关注我的后续更新。

—— 2026年2月20日晚,于深圳