终于不用再忍受假唱了!清华字节联合实验室的AI黑科技,让虚拟人物张嘴就同步
终于不用再忍受假唱了!清华字节联合实验室的AI黑科技,让虚拟人物张嘴就同步
昨晚刷视频的时候,又一次被AI虚拟主播的"假唱"给整笑了——明明在唱Rap,嘴巴却慢了半拍,整个人物看起来就像在跳大神。相信很多朋友都有过类似的经历吧?
不过好消息来了!清华字节联合实验室刚刚发布了一项重磅突破,终于要终结这种尴尬局面了。
困扰多年的"对嘴不对音"难题
说起来有点心酸,虽然现在AI技术这么发达,能画精美的虚拟人物,能生成动听的声音,甚至能创作完整的视频,但就是过不了"音画同步"这一关。
你想想,一个AI生成的虚拟主播,说着标准普通话,表情也到位,但就是嘴巴动得不对劲——要么是早了,要么是晚了,要么是根本不在一个频道上。这种不协调感,一下子就把沉浸感给破坏了。
为什么这么难解决呢?简单说,因为这是一个多模态融合的问题:既要理解语音的节奏和音节,又要控制人物的面部肌肉运动,还要考虑不同角色的口型差异。这三者要完美配合,难度不亚于让三个人同时跳一支舞。
清华字节的突破性解决方案
清华字节联合实验室这次带来的是一个"统一框架",意思是什么呢?就是不用再分别处理语音和画面了,而是一步到位,直接生成音画同步的视频内容。
根据公开的技术细节,这个框架主要有两大功能:
第一,从零生成同步视频。 你只需要提供一张人物照片和一段音频,系统就能自动生成出完美的表演片段。比如你找一张明星的照片,再录一段自己的话,AI就能让这位"明星"帮你把话说出来,而且口型完全对得上。
第二,现有视频的音画同步修复。 对于已经有的视频,只要音频和画面不同步,上传给系统,它就能自动调整人物的口型动作,让两者完美匹配。这对于视频剪辑、配音替换等场景来说,简直就是神器。
这个突破到底有多厉害?
可能有人会说,不就是一个口型同步吗,至于这么兴奋吗?
还真是至于。这个技术的影响远比想象中深远:
对于内容创作者来说,以后做虚拟主播视频、AI配音视频、短视频配音,再也不用担心口型对不上了。上传一张照片,找个AI语音工具生成声音,再丢进这个系统,一套流程走完,一个完美的AI视频就诞生了。
对于影视制作来说,后期配音的成本会大大降低。演员的表演可以更自由,口型不对后期再调就行。甚至可以用AI虚拟演员来补拍一些镜头,而且观众根本看不出破绽。
对于直播行业来说,虚拟主播的体验会直线上升。现在很多虚拟主播都是预设好的表情和动作,互动感不强。有了这个技术,虚拟主播就能实时根据语音内容做出准确的口型和表情,真实感大大提升。
对于个人用户来说,以后想做搞笑视频、搞怪配音,门槛会低到离谱。找个朋友的照片,说几句搞笑的话,立马生成一个"他/她在说话"的视频,发朋友圈绝对炸场。
不过,技术带来的思考
当然,任何强大的技术都会引发一些担忧。深度伪造技术已经让很多人担心了,现在口型也同步了,假视频会越来越难分辨。
对此,清华字节联合实验室在技术发布时也强调,这项技术会加入数字水印和来源标识,防止被滥用。而且,技术的进步本身是中性的,关键在于我们如何使用它。
写在最后
回想起2023年那个让全网爆笑的"威尔·史密斯吃面条"AI视频,短短三年时间,AI视频生成技术已经从"滑稽"进化到了"以假乱真"的地步。
清华字节联合实验室的这个突破,填补了AI内容创作中的最后一块短板。从文本到图像、从图像到视频、从静默到有声,现在又加上完美的音画同步——AI创作工具链已经完整了。
未来的内容创作,可能真的只需要一个想法、一个提示词,剩下的都交给AI。人类创作者的角色,将从"执行者"变成"创意者"和"把关者"。
至于这个技术什么时候能公开使用?从实验室发布到产品落地,通常还需要一段时间。但考虑到字节跳动的产品化能力,我们或许很快就能在抖音、剪映等产品里体验到这个功能了。
期待那一天的到来!毕竟,谁不想让自己的虚拟代言人说话更自然一点呢?
本文首发于我的科技博客,欢迎关注获取更多AI前沿资讯。