可灵O1：AI视频新秀，多模态融合，视频编辑大革新？

AI前沿7个月前发布 yizz

可灵O1：AI视频领域的“Nano Banana”横空出世？

什么是可灵O1？为何被称为AI视频领域的“Nano Banana”？

昨晚，AI视频领域迎来了一个新的突破——可灵O1，一个全新的多模态视频大模型。它是由可灵推出的，并计划连续五天发布新内容。可灵O1首次将参考生视频、文生视频、首尾帧生视频、视频内容修改、风格重绘、镜头延展等多种能力融合到一个统一的模型中。这就像AI视频领域的Nona Banana，功能强大且全面。目前，可灵O1已正式上线，供大家体验。

可灵O1的体验如何？有哪些亮点功能？

作为可灵超创，我提前拿到了内测资格，体验了几天，花费了两万多积分制作了两个小片子。说实话，许多玩法让我感到惊喜。接下来，我将分享我对可灵O1的真实评价。

如何进入可灵O1？

首先，访问可灵官网：https://app.klingai.com/。在首页上，你会看到两个颜色鲜艳且画风与其他图标不同的图标，那就是可灵O1。

O1代表什么？

点击进入后，你可以看到网址上显示的是Omni。可灵O1的“O”是Omni的缩写，与GPT-4o的“o”意思一致。Omni来自拉丁语前缀，意思是“all，所有、一切”。在大模型圈，名字里带有Omni通常表示这是一个多模态大一统的基座模型。

可灵O1的主界面是什么样的？

进入后，你会看到一个界面，可以上传图片和视频，也可以使用主体。主体不是一个新功能，你可以将其理解为一个预设，上传一个人物或物品的多角度图片，然后封装成一个主体，更便于调用。顶上的一圈功能是对可灵O1的快捷模板，例如参考生视频，上传几张图，可以在确保一致性的情况下生成视频。

可灵O1有哪些核心功能？

这次的两个新功能是指令变化和视频参考，我认为这是可灵O1的重中之重。以前的可灵无法对视频进行编辑或参考，但现在终于可以了。这也是我称其为AI视频领域的Nano Banana的原因。虽然这还是第一版，有一些局限性，但这是我们第一次可以用“嘴”来修改视频，这终于成为了可能。

可灵O1的有趣玩法有哪些？

以下是我觉得比较有趣的几个玩法，让你看看可灵O1的能力。

一. 视频中增加和删除内容

对视频内容进行增删是第一个要介绍的功能。以前要在视频里增加一个东西，比如桌子上多一杯奶茶，天空多一架飞机，街道多一辆车，非常费劲，可能需要一个后期师花费一天的时间。特别是一些综艺，在艺人塌房时，抠图简直是噩梦。但在视频多模态模型的加持下，这种传统需要巨大人力修改的视频模态，成本被拉到了极低。现在，只要会说话，会描述，就可以增加或删除视频里的内容。

例如，电影《马达加斯加的企鹅》中的企鹅没有穿衣服，不太文雅。我们可以用一句话给中间的Skipper穿上西装，戴上墨镜，效果很好，更像老大了。

这次的参数上，有一个比较新的点：时长自由，3～10秒内的视频都可以自由生成。

比如，我自己生成了一个歌剧女郎，为了增加一些神秘感，我给她添了一个面罩。

既然可以增加，那删除肯定也没问题。比如我随手拍了一个公司里面的镜头，然后直接一句话消除，所有的人就全都没了，就像灭霸打了响指一样。再比如，哆啦A梦里面的一个镜头，直接一句话，让小夫在这个画面中消失，完全感受不到小夫的存在过。

所以啊，很多分手了的视频，也可以用可灵O1处理处理……你懂的……

二. 修改视频中的特定内容

上面我们看了增加和删除，现在，你也可以只改视频里的某一个部分。比如，不改人，只改衣服颜色；不改构图，只把夏天改成冬天，一键变雪景；不改镜头运动，只把楼下那条路变成开裂的地表等等。

比如，我拍了一下我们公司附近的一个很大的空地，我们可以直接用可灵O1打个响指，让这个地方一键地表开裂。还有，让我坤哥手上的篮球变成足球。一个模特走秀，我们希望她换头发、换衣服等等，也可以一句话直接修改，百变女神有木有。

不止可以变化场景和物体，还可以修改视频的天气，让人物和场景完美融合。整体效果还不错，不过还是会有一些不足。比如精细控制不够，坤哥足球那个case大幅运动偶尔会崩穿帮一下，但是如果你的场景不是电影级的画面，就是短视频这种，再扬长避短一下，我觉得已经非常够用了。

三. 把视频扣成绿幕

这个玩法也很特别，是一个看起来很传统，但实际非常有用的能力——把一个现有视频自动扣成绿幕素材。以前我们要做虚拟演播厅、虚拟背景、特效合成等等，第一步一定是拍绿幕，因为只有绿幕才能最方便地进行后期叠加各种特效效果，最方便地进行合成。一些不需要那么精细的场景，我们其实就可以直接用可灵O1来做了。

但是对于一些传统的要求极高的影像内容，AI可能暂时能力还达不到，那么扣出主体，把背景变成绿幕，后期用别的视频合成进去，其实是更好的方案。以前传统流程如果前期没有搭绿幕，而是后期来抠，那真的麻烦到爆炸，而现在，借助可灵O1，你可以理解成它用自己的视频理解+分割能力，帮你自动做了一次绿幕抠像。

比如这个史迪仔在太空中漂浮的场景，我们只想保留史迪仔，然后希望把背景变成绿幕，就可以直接说：“把视频改为绿幕，保留画面中毛茸茸的史迪仔。”然后你就能得到一个抠完的视频。又比如，把这个鹿的背景抠成绿幕，效果相当不错。

四. 参考视频动作

除了对视频本身进行编辑之外，你还可以把视频作为参考本身，用一个现有视频去驱动另一个角色的视频动作。就是大家经常能看到的动作迁移，现在用可灵O1已经可以进行的非常好了。

简单说，就是比如你有一个角色跳舞的视频A，还有一个角色或者插画人物B，用可灵O1就可以让B按照A的动作跳一模一样的舞。比如原跳舞视频很魔性很抽象，现在我们给他一个疯狂动物城里面的尼克，让他也来跳这个舞。只需要特别简单的一句：“把视频中的角色替换成尼克”，就可以得到一个动作迁移非常好的尼克跳舞视频。

这类功能在之前的一些AI视频产品里也以零散的功能出现，但可灵O1这次直接集成进了自己的多模态模型里，而且效果非常棒。可以非常便捷地替代以前的动作捕捉了。而且不止可以迁移动作，人物的表演能力也可以非常棒的迁移过来。比如把尼古拉斯凯奇直接替换成尼古拉斯赵四，还有把AI视频里的白发老人换成风骚律师的主角Jimmy，效果非常的稳定。

五. 更改视频风格

改视频风格应该是大家最容易理解的，也是AI视频第一次出现的时候最流行的玩法。也就是在不改变视频内容的前提下，直接换一整套风格。比如把现实拍摄的视频改成手绘动画，或者把城市夜景变成赛博朋克等等。

还是用我最开始拍的空地，我们直接把他全部变成像素化，包括手、地面、远处的建筑和天空。又或者，把我的实拍视频加上蒙克那张经典的呐喊，然后就变成了一个非常具有视觉冲击力的风格。这个玩法我特别喜欢。

可灵O1还有其他什么能力？

除了上面这些比较主线的能力，还有一堆零零碎碎的，拥有模型世界知识的玩法。比如直接根据一个镜头，生成下一个镜头。例如这个车，扔到可灵O1里面，然后就会得到这样一个展现极致速度感的视频。比如把这个镜头切换成另一个视角，就可以得到一个特写，等等等等。

总结：可灵O1是AI视频领域的未来吗？

通过以上的案例，你就能大概看出来可灵O1的能力了。可灵O1是AI视频领域第一个真正意义上的大一统模型。当然，因为是初期，模型还做不到完美，比如在多主体识别、画面质量的呈现上还能做得更好。但这是前往更牛逼的多模态模型的必经之路。

就像2024年6月6号，我们看可灵1.0的时候，也许几年之后回头看今天，可灵O1只是一个新时代的开始，就像我们用现在的眼光来看可灵1.0那样。但如果某一天，我们真的有那种所谓的给一句话，它就能帮你从策划到拍片到剪辑全包的终极视频 AI，那它的族谱往上翻，我觉得肯定会写着，这里曾经有一个叫可灵O1的名字。从这一代开始，我们第一次认认真真地把用嘴改视频当成了一件理所当然的事。

以上，既然看到这里了，如果觉得不错，随手点个赞、在看、转发三连吧，如果想第一时间收到推送，也可以给我个星标⭐～谢谢你看我的文章，我们，下次再见。

我认为：可灵O1的出现，代表着AI视频技术正在向着更加智能化、集成化的方向发展。它简化了视频创作流程，降低了创作门槛，让更多人能够参与到视频内容的生产中来。虽然目前还存在一些不足，但其强大的功能和潜力已经显现，未来可期！

/ 作者：卡兹克、水杉、Chiyo

/ 投稿或爆料，请联系邮箱：wzglyay@virxact.com

AI前沿 # AI视频 # 人工智能 # 可灵 # 可灵O1 # 多模态模型 # 视频编辑

© 版权声明

文章版权归作者所有，未经允许请勿转载。

相关文章

谷歌“AI 概览”功能即将扩展到更多国家

谷歌“AI 概览”功能即将扩展到更多国家

AI前沿 # AI概览 # 信息可靠性 # 搜索功能

2年前

20,7090

新手小白如何使用雨云服务器（宝塔面板）创建一个网站？

新手小白如何使用雨云服务器（宝塔面板）创建一个网站？

AI前沿 # 服务器 # 雨云 # 雨云服务器

2年前

20,3070

ChatGPT 免费用户的可以用4o功能了：浏览、视觉、数据分析、文件上传和GPTs

ChatGPT 免费用户的可以用4o功能了：浏览、视觉、数据分析、文件上传和GPTs

2年前

35,5350

即梦AI生成平台快速使用教程

即梦AI生成平台快速使用教程

2年前

318,6310

error: Content is protected !!