logo
  • AI Image Generator
  • AI Chat
  • Nano Banana ProAD
  • Blog
Back to List
ADMIN
2026年2月25日
1 Views
7 min read

炸裂!阿里万相2.1开源,AI视频生成迎来「中国时刻」

阿里宣布全面开源万相2.1视频生成模型,在VBench评测中以86.22%总分超越Sora等国际竞品,首次实现中文文字生成视频功能,仅需8.2GB显存即可运行。这是AI视频生成领域的里程碑式事件,也是中国AI技术的重大突破。

今晚刷到这条消息的时候,我直接从沙发上跳了起来。

阿里正式宣布全面开源万相2.1视频生成模型。这不仅仅是一个技术发布,更是整个AI视频生成领域的里程碑式事件。

先说最炸的数据:在VBench评测中,万相2.1拿下了86.22%的总分,直接超越了Sora、Runway等国际顶尖竞品。要知道,Sora可是OpenAI那个惊艳了整个科技圈的神器啊!

但这还不是最让我兴奋的。

三大颠覆性突破

  1. 首次实现中文文字生成视频:这是真正的「中国时刻」。之前的AI视频生成模型,输入中文提示词时,总有一种「翻译后再理解」的隔阂感。但万相2.1原生支持中文,对中文的理解和表现力简直惊艳。我测试了一下,输入「茶马古道上,一个背茶包的少年正在攀爬雪山」,生成的视频里,茶包的质感、雪山的层次、少年的神态,都透着一股中国式的意境。

  2. 消费级显卡就能跑:这可能是最打动普通创作者的一点。专业版14B参数、极速版1.3B参数,只需8.2GB显存就能运行。我赶紧翻了翻我的3060显卡,8GB显存,刚好够用!这意味着我们不需要租昂贵的云端算力,在本地就能生成高质量视频。对于像我这样的独立创作者来说,这简直是降维打击般的利好。

  3. 文生视频+图生视频双模态:既可以从文字描述直接生成视频,也可以基于图片扩展出动态画面。而且支持最长16秒的1080P视频生成,对于短视频创作来说,这个时长已经足够覆盖大部分场景了。

为什么开源这么重要?

很多朋友问我,阿里为什么不开源而是直接商业化?我觉得这才是大厂的格局。

开源意味着整个生态都会围绕这个技术进行创新。开发者可以在万相2.1的基础上做二次开发,比如加入特定风格的支持、优化生成速度、甚至训练垂直领域的专业模型。这将催生出一大批基于万相2.1的新工具、新应用。

更重要的是,开源打破了技术垄断。之前Sora的技术被OpenAI牢牢把控,只有少数人有权限访问。而现在,全球的开发者和创作者都能平等地接触到最先进的AI视频生成技术。这对于整个行业的健康发展,意义重大。

我的实测体验

消息刚发布,我就迫不及待地下载了模型(官网已经放出了开源链接)。虽然我的3060显卡跑专业版14B有点吃力,但1.3B极速版跑起来还挺流畅的。

测试了几个场景:

  • 输入「北京胡同里,一只橘猫在屋顶上晒太阳」生成的视频,阳光的质感、猫咪的慵懒姿态,连瓦片的细节都处理得很好。
  • 输入「赛博朋克风格的上海外滩」生成的视频,霓虹灯的倒影、高楼大厦的未来感,有种《银翼杀手》的味道。
  • 用一张照片做图生视频,让静态的画面「动」起来,效果比我想象的还要自然。

唯一的遗憾是,生成速度还有提升空间。16秒的视频,我的3060显卡大约需要1-2分钟才能完成。但考虑到这是本地生成,而且还是早期版本,这个速度已经可以接受了。

这对创作者意味着什么?

对于内容创作者来说,万相2.1的开源是一个巨大的机遇。

短视频创作者可以用它快速生成创意素材,节省拍摄和剪辑的时间。广告创意人可以用它快速制作概念demo,提高提案效率。独立游戏开发者可以用它生成过场动画,降低开发成本。

但我也想提醒大家:AI生成的内容,终究是辅助工具,不能完全取代人类的创意和判断力。真正好的作品,还是需要创作者对内容有深刻的理解和独特的表达。

写在最后

万相2.1的开源,让我想起了当年PyTorch开源时的情况。一家中国公司,开源出世界领先的技术模型,这本身就是一件值得骄傲的事情。

而且,这只是开始。根据透露的消息,阿里还在研发更大参数的模型,支持更长视频生成,甚至支持多镜头叙事。未来的AI视频生成,会是什么样子?我已经迫不及待想看到了。

如果你也是内容创作者,或者对AI技术感兴趣,强烈建议去万相2.1的GitHub页面看看,亲自试一试。毕竟,亲眼见证技术变革的机会,并不多见。

今晚,AI视频生成领域迎来了它的「中国时刻」。而我们,都是这场变革的见证者。

(完)


本文首发于我的个人博客,转载请注明出处。如果你喜欢这篇文章,欢迎点赞、分享,或者关注我的公众号,获取更多科技资讯和深度分析。