刚刚！Google Gemini 3.1 Pro发布：推理能力暴涨2倍，AI终于学会说'我不知道'了

Google于2026年2月20日正式发布Gemini 3.1 Pro，在ARC-AGI-2基准测试中斩获77.1%高分，推理能力相比前代暴涨2倍以上。更值得关注的是，新模型的幻觉率腰斩——AI终于学会说"我不知道"了。这两个突破分别代表了AI在"聪明程度"和"可靠性"上的跨越式进展，可能成为大模型发展的重要转折点。

大语言模型 Gemini 3.1 Pro Google AI ARC-AGI-2 AI推理科技资讯

就在刚刚，Google丢了一颗重磅炸弹

现在是2026年2月20日晚上11点过，我本来打算洗洗睡了，结果刷新feed的时候被一条新闻炸醒——Google正式发布Gemini 3.1 Pro。

说实话，最近几个月AI圈有点审美疲劳，新模型发布已经成了家常便饭。但这次不一样，看完数据我直接从床上坐起来了。

77.1%的ARC-AGI-2分数意味着什么？

先说重点：在ARC-AGI-2这个专门测试AI推理能力的基准测试里，Gemini 3.1 Pro拿到了**77.1%**的分数。

可能有人觉得"不就是个分数吗"，但这里有个对比：前代Gemini 3 Pro在这个测试上的得分是31.1%。

这意味着什么？推理能力暴涨2.4倍。

ARC-AGI-2不是那种考记忆力的测试，它给的是全新的、从未见过的逻辑谜题，要求AI从零开始理解和解决问题。这就像是给一个人看一道从来没见过的奥数题，看能不能自己想出解法。

31.1%到77.1%，这已经不能叫提升了，这叫跨越。

更让我震惊的是：AI学会说"我不知道"了

如果说ARC-AGI-2的高分证明Gemini 3.1 Pro变得"更聪明"，那另一个改进则让AI变得"更靠谱"。

幻觉率直接腰斩。

大家用大模型应该都有过这样的经历：问它一个它不知道的问题，它一本正经地胡说八道。这就是幻觉问题——模型不知道答案，但为了满足你的要求，它"编"一个。

Gemini 3.1 Pro在这方面进步巨大，当遇到不确定的问题时，它更倾向于诚实地说"我不知道"或者"我没有足够的信息来回答这个问题"。

老实说，这个改进比推理能力提升更让我兴奋。

为什么？因为在实际应用中，"知道自己的边界"比"什么都能答"重要得多。想象一下，如果你问AI一个医疗相关的问题，它老实说"我不是医生，这个超出了我的专业范围"，总比它瞎编一个错误答案来得好吧？

这可能是个转折点

回顾过去几年大模型的发展，我们看到的是参数量越来越大、训练数据越来越多、上下文窗口越来越长——这些都是量的堆砌。

但Gemini 3.1 Pro这次不一样。它在两个更本质的方向上取得了突破：真正的推理能力和诚实的自我认知。

这两个方向，才是AGI（通用人工智能）真正的核心能力。

而且，最关键的是：价格没变，直接升级。这让我想起当年iPhone 4推出视网膜屏幕的时候——技术突破直接下放，而不是作为高端溢价功能。

写在最后

我现在有点兴奋，也有点焦虑。

兴奋的是，AI正在朝着我们期望的方向发展——不再是只会鹦鹉学舌的聊天机器人，而是真正能够思考、知道自己边界的智能体。

焦虑的是，作为内容创作者，当AI能够如此可靠地进行复杂推理和创造性工作时，我们的工作会被重构成什么样子？

不过，焦虑归焦虑，明天早上第一件事，我肯定要去试一下这个Gemini 3.1 Pro。毕竟，亲眼见证AI进步的过程，本身就是一件很酷的事情。

如果你想第一时间体验Gemini 3.1 Pro，可以直接访问Google的Gemini应用，或者通过API接入。价格还是那个价格，但你的AI助手已经升级了。