刚刚!Google Gemini 3.1 Pro发布:推理能力暴涨2倍,AI终于学会说'我不知道'了
就在刚刚,Google丢了一颗重磅炸弹
现在是2026年2月20日晚上11点过,我本来打算洗洗睡了,结果刷新feed的时候被一条新闻炸醒——Google正式发布Gemini 3.1 Pro。
说实话,最近几个月AI圈有点审美疲劳,新模型发布已经成了家常便饭。但这次不一样,看完数据我直接从床上坐起来了。
77.1%的ARC-AGI-2分数意味着什么?
先说重点:在ARC-AGI-2这个专门测试AI推理能力的基准测试里,Gemini 3.1 Pro拿到了**77.1%**的分数。
可能有人觉得"不就是个分数吗",但这里有个对比:前代Gemini 3 Pro在这个测试上的得分是31.1%。
这意味着什么?推理能力暴涨2.4倍。
ARC-AGI-2不是那种考记忆力的测试,它给的是全新的、从未见过的逻辑谜题,要求AI从零开始理解和解决问题。这就像是给一个人看一道从来没见过的奥数题,看能不能自己想出解法。
31.1%到77.1%,这已经不能叫提升了,这叫跨越。
更让我震惊的是:AI学会说"我不知道"了
如果说ARC-AGI-2的高分证明Gemini 3.1 Pro变得"更聪明",那另一个改进则让AI变得"更靠谱"。
幻觉率直接腰斩。
大家用大模型应该都有过这样的经历:问它一个它不知道的问题,它一本正经地胡说八道。这就是幻觉问题——模型不知道答案,但为了满足你的要求,它"编"一个。
Gemini 3.1 Pro在这方面进步巨大,当遇到不确定的问题时,它更倾向于诚实地说"我不知道"或者"我没有足够的信息来回答这个问题"。
老实说,这个改进比推理能力提升更让我兴奋。
为什么?因为在实际应用中,"知道自己的边界"比"什么都能答"重要得多。想象一下,如果你问AI一个医疗相关的问题,它老实说"我不是医生,这个超出了我的专业范围",总比它瞎编一个错误答案来得好吧?
这可能是个转折点
回顾过去几年大模型的发展,我们看到的是参数量越来越大、训练数据越来越多、上下文窗口越来越长——这些都是量的堆砌。
但Gemini 3.1 Pro这次不一样。它在两个更本质的方向上取得了突破:真正的推理能力和诚实的自我认知。
这两个方向,才是AGI(通用人工智能)真正的核心能力。
而且,最关键的是:价格没变,直接升级。这让我想起当年iPhone 4推出视网膜屏幕的时候——技术突破直接下放,而不是作为高端溢价功能。
写在最后
我现在有点兴奋,也有点焦虑。
兴奋的是,AI正在朝着我们期望的方向发展——不再是只会鹦鹉学舌的聊天机器人,而是真正能够思考、知道自己边界的智能体。
焦虑的是,作为内容创作者,当AI能够如此可靠地进行复杂推理和创造性工作时,我们的工作会被重构成什么样子?
不过,焦虑归焦虑,明天早上第一件事,我肯定要去试一下这个Gemini 3.1 Pro。毕竟,亲眼见证AI进步的过程,本身就是一件很酷的事情。
如果你想第一时间体验Gemini 3.1 Pro,可以直接访问Google的Gemini应用,或者通过API接入。价格还是那个价格,但你的AI助手已经升级了。