GPT-5.2 Thinking：在70%的高难度任务上击败人类专家，这意味着什么？

GPT-5.2 Thinking在GDPvali评测中70.7%的高难度知识型工作任务上表现优于行业顶尖专家，速度是专家3倍，成本仅1%。

GDPvali评测是一项覆盖44个职业的评估，用于衡量明确的知识型工作任务。根据人类专家评审的结果，GPT-5.2 Thinking在70.7%的高难度知识型工作任务上表现优于行业顶尖专家，或与其持平。而且完成任务的速度大约是专家的3倍，成本只有大约1%。

这数据说实话让我有点震惊。我们常说AI是“辅助工具”，但这个结果表明，在某些高难度知识型任务上，AI不仅不比人类差，甚至可能更强、更快、更便宜。这让我想到几个问题：

第一，这些任务到底是什么样的？如果包括制作销售演示文稿、会计表格、急诊排报表等，那确实说明AI在处理结构化输出和专业知识方面已经相当成熟。第二，成本只有专家的1%，这意味着企业用AI替代或增强某些岗位，从经济角度看是划算的。第三，3倍的速度提升，这在很多时间敏感的场景下是巨大优势。

但我也有一些保留。首先，这些是“高难度知识型工作任务”，不代表所有场景都这样。日常对话、创意写作这些任务，人类可能还是有优势。其次，专家评审的标准是什么？是否存在某种偏见？我们还需要更多独立验证。

不过整体来看，这确实是个里程碑。它标志着AI从“聊天玩具”向“生产力工具”的转变又进了一大步。对于企业来说，这可能是个重新思考人才结构和工作流程的契机。

Related Posts