大语言模型评估迎来重大突破:Define-Test-Diagnose-Fix工作流程实现90%准确率
研究人员开发的Define-Test-Diagnose-Fix迭代测试工作流程,成功将大语言模型的评估准确率提升至90%,这一突破将如何改变行业对模型能力的判断方式?
Read our latest articles and insights
研究人员开发的Define-Test-Diagnose-Fix迭代测试工作流程,成功将大语言模型的评估准确率提升至90%,这一突破将如何改变行业对模型能力的判断方式?
阿里巴巴Qwen团队发布Qwen3-Max-Thinking模型,在基准测试中声称能匹敌GPT-5.2和Gemini 3 Pro,且成本仅为三分之一。这是中国AI的重要突破,还是又一轮宣传炒作?让我们一起来看看。
印度将在2026年2月19-20日发布首个国家级大语言模型,部署38,000个GPU,每小时租用成本仅需65卢比。这一举动标志着全球AI竞争进入新阶段,AI主权成为各国关注的焦点。本文深入分析印度AI战略背后的战略考量及其对全球AI格局的影响。
OpenAI今天正式发布GPT-5,首次实现真正的实时学习和自我修正能力,标志着大语言模型从静态知识库向动态学习系统的重大转变。
2026年1月,中国AI初创公司DeepSeek发布了mHC架构,这项突破性技术解决了大模型训练不稳定的长期痛点。在美国芯片禁运的背景下,mHC架构展示了中国AI企业的创新能力,可能改写大模型训练的游戏规则。本文深入分析了mHC的技术原理、行业影响,以及它如何与即将到来的字节跳动、阿里巴巴新一代模型发布潮共同塑造2026年AI格局。
Forbes今天发布的重磅文章揭示了2026年AI发展的新阶段——从对话式AI到智能体,再到深度融入业务流程的AI,我们正在见证又一次质的飞跃。GPT-5.1、Claude 4.5等顶级模型的能力已经达到新高度,而本地代理和实时合规工具的兴起,说明AI正在从“尝鲜工具”变成“生产必需品”。
今天,智源研究院的多模态大模型「悟界·Emu3」登上了《Nature》正刊,这是中国科研机构主导的大模型成果首次在顶级学术期刊发表。Emu3用最朴素的方式——仅基于「预测下一个词元」一个机制,实现了文本、图像、视频的统一学习,性能达到专业模型水平。这一突破不仅统一了生成式AI的技术路线,也为产业界降低成本、提升效率打开了新的大门。
英伟达拟以30亿美元收购以色列AI独角兽AI21 Labs,这不仅是技术收购,更是一场人才争夺战。本文深入分析这笔交易背后的战略逻辑,以及它对2026年AI行业格局的深远影响。
推理时扩展技术是2024-2025年AI领域最重大的突破之一。通过在推理阶段增加计算资源而非单纯扩大模型规模,这项技术显著提升了大语言模型的复杂问题解决能力。OpenAI的o3模型在多项基准测试中展现出了前所未有的性能,标志着AI发展范式的重大转变。