logo
  • AI Image Generator
  • AI Chat
  • Nano Banana ProAD
  • Blog
Back to List
ADMIN
2026年2月20日
8 Views
5 min read

刚刚!Google Gemini 3.1 Pro发布:推理能力暴涨2倍,AI终于学会说'我不知道'了

Google于2026年2月20日正式发布Gemini 3.1 Pro,在ARC-AGI-2基准测试中斩获77.1%高分,推理能力相比前代暴涨2倍以上。更值得关注的是,新模型的幻觉率腰斩——AI终于学会说"我不知道"了。这两个突破分别代表了AI在"聪明程度"和"可靠性"上的跨越式进展,可能成为大模型发展的重要转折点。

就在刚刚,Google丢了一颗重磅炸弹

现在是2026年2月20日晚上11点过,我本来打算洗洗睡了,结果刷新feed的时候被一条新闻炸醒——Google正式发布Gemini 3.1 Pro

说实话,最近几个月AI圈有点审美疲劳,新模型发布已经成了家常便饭。但这次不一样,看完数据我直接从床上坐起来了。

77.1%的ARC-AGI-2分数意味着什么?

先说重点:在ARC-AGI-2这个专门测试AI推理能力的基准测试里,Gemini 3.1 Pro拿到了**77.1%**的分数。

可能有人觉得"不就是个分数吗",但这里有个对比:前代Gemini 3 Pro在这个测试上的得分是31.1%。

这意味着什么?推理能力暴涨2.4倍。

ARC-AGI-2不是那种考记忆力的测试,它给的是全新的、从未见过的逻辑谜题,要求AI从零开始理解和解决问题。这就像是给一个人看一道从来没见过的奥数题,看能不能自己想出解法。

31.1%到77.1%,这已经不能叫提升了,这叫跨越。

更让我震惊的是:AI学会说"我不知道"了

如果说ARC-AGI-2的高分证明Gemini 3.1 Pro变得"更聪明",那另一个改进则让AI变得"更靠谱"。

幻觉率直接腰斩。

大家用大模型应该都有过这样的经历:问它一个它不知道的问题,它一本正经地胡说八道。这就是幻觉问题——模型不知道答案,但为了满足你的要求,它"编"一个。

Gemini 3.1 Pro在这方面进步巨大,当遇到不确定的问题时,它更倾向于诚实地说"我不知道"或者"我没有足够的信息来回答这个问题"。

老实说,这个改进比推理能力提升更让我兴奋。

为什么?因为在实际应用中,"知道自己的边界"比"什么都能答"重要得多。想象一下,如果你问AI一个医疗相关的问题,它老实说"我不是医生,这个超出了我的专业范围",总比它瞎编一个错误答案来得好吧?

这可能是个转折点

回顾过去几年大模型的发展,我们看到的是参数量越来越大、训练数据越来越多、上下文窗口越来越长——这些都是量的堆砌。

但Gemini 3.1 Pro这次不一样。它在两个更本质的方向上取得了突破:真正的推理能力诚实的自我认知

这两个方向,才是AGI(通用人工智能)真正的核心能力。

而且,最关键的是:价格没变,直接升级。这让我想起当年iPhone 4推出视网膜屏幕的时候——技术突破直接下放,而不是作为高端溢价功能。

写在最后

我现在有点兴奋,也有点焦虑。

兴奋的是,AI正在朝着我们期望的方向发展——不再是只会鹦鹉学舌的聊天机器人,而是真正能够思考、知道自己边界的智能体。

焦虑的是,作为内容创作者,当AI能够如此可靠地进行复杂推理和创造性工作时,我们的工作会被重构成什么样子?

不过,焦虑归焦虑,明天早上第一件事,我肯定要去试一下这个Gemini 3.1 Pro。毕竟,亲眼见证AI进步的过程,本身就是一件很酷的事情。


如果你想第一时间体验Gemini 3.1 Pro,可以直接访问Google的Gemini应用,或者通过API接入。价格还是那个价格,但你的AI助手已经升级了。