阿里“源神”再发力:万相2.1开源,AI视频创作迎来新纪元?
万相2.1为何而来?——深夜爆发的AI视频“核弹”
最近的AI新闻着实令人应接不暇,尤其是在2月25日这个特殊的日子,阿里再次引爆了一颗AI视频领域的“核弹”——万相2.1正式开源。从凌晨到深夜,多个AI模型和工具的发布,预示着AI技术正在加速发展。
- 凌晨2点半:Claude发布3.7 Sonnet。
- 凌晨5点半:阿里发布推理模型QwQ-Max的预览版。
- 早上10点:DeepSeek开源了一个DeepEP代码库。
- 晚上10点20:阿里的视频模型万相2.1正式开源。
开源链接:
- Huggingface:https://huggingface.co/Wan-AI
- GitHub:https://github.com/Wan-Video/Wan2.1
万相2.1有哪些亮点?——模型规格、配置需求与实际效果
本次开源的万相2.1包含四个模型,分为文生视频和图生视频两大类,各有两种规格。
- 文生视频模型:1.3B和14B两种规格。
- 图生视频模型:均为14B,分辨率分别为480P和720P。
最大的惊喜在于,1.3B的模型对配置要求极低,仅需8GB显存即可运行,这意味着即使是拥有RTX 4060显卡的普通用户,也能在本地进行部署和体验。如果使用RTX 4090,生成一条5秒钟的480P视频大约只需4分钟。
线上体验与本地部署:两种不同的玩法
在万相2.1开源之前,阿里已在通义万相平台上线了2.1专业版(原生720P)和2.1极速版(480P超分至720P),两者均为14B模型。而1.3B模型是专门为本地部署而推出的,目前尚无线上体验渠道。
- 14B模型:可通过通义万相平台进行体验。
- 1.3B模型:需自行在本地部署,魔搭社区提供了便捷的部署方案:https://www.modelscope.cn/models/Wan-AI/Wan2.1-T2V-1.3B
实际效果如何?——语义理解、物理真实性与运动表现
从实际测试来看,万相2.1的14B模型在开源视频模型中处于第一梯队,而1.3B模型虽然体积小巧,但在语义理解、物理真实性以及复杂运动的表现上都毫不逊色。
- 语义理解:能够准确理解长文本和复杂Prompt,并按顺序执行多个动作。
- 示例Prompt:空镜从卧室顶部45度俯拍,一位女子躺在凌乱的床上。清晨阳光透过百叶窗在她脸上投下条纹状光影。她闭着眼,用手揉眼睛。然后睁开眼睛, 微笑。
- 物理真实性:对光影、材质和纹理的模拟非常逼真。
- 示例Prompt:高速摄影拍摄一个新鲜柠檬被切开的瞬间。镜头推进,从中景到特写。锋利的银色水果刀从上方切下,柠檬汁飞溅而出,形成细小水珠。特写画面呈现柠檬的横切面和果肉纹理。
- 运动表现:能够呈现大幅度的动作、旋转以及快速运动。
- 示例Prompt:在冰面上,一位 18 岁的中国美少女明星短道速滑运动员熠熠生辉。她五官玲珑,神色自信,肌肤胜雪,高马尾充满活力。她身着一条薄荷绿的超短薄纱裙,裙摆随风飘动,上身搭配白色露脐运动背心。以全景镜头俯拍,通过轨道车拍摄跟行。柔和的淡蓝色灯光从斜前方洒下,光质轻柔,光比偏小,营造出清新的氛围。她身姿矫健地疾驰,临近终点时采用推镜头特写其坚毅的眼神和快速摆动的手臂。
- 运镜效果:支持复杂的运镜,甚至可以模拟遮挡物后的镜头移动。
- 示例Prompt:低机位拍摄图书馆书架,前景书本缝隙间闪过金丝眼镜的反光。当镜头水平移过三格书架,穿灰色毛衣的男生恰好转头,看向镜头,手中悬停的棕色书本封皮。
- 文字生成:万相是全球首个能直接生成中文字的AI视频模型,尽管目前仅支持简单的、笔画数较少的中文,且字体有限,但这是一个极具潜力的方向。
- 示例Prompt:以红色新年宣纸为背景,出现一滴水墨,晕染墨汁缓缓晕染开来。文字的笔画边缘模糊且自然,随着晕染的进行,水墨在纸上呈现「福」字,墨色从深到浅过渡,呈现出独特的东方韵味。背景高级简洁,杂志摄影感。
如何使用万相2.1?——免费体验、API调用与本地部署
如果你想体验万相2.1,目前有以下几种方式:
- 免费体验(14B模型):
- 通义万相官网:每天签到可获得50灵感值,在APP上跑视频可额外获得50灵感值,每天最多可免费生成20个专业版(14B 720P)视频(每个视频消耗5灵感值)。
- Hugging Face Demo:虽然理论上可以无限免费使用,但由于算力有限,体验可能不佳。
- API调用(14B模型):
- 阿里云百炼平台:https://bailian.console.aliyun.com/model-market#/home
- 价格:Plus(2.1专业版)每秒0.7元,Turbo(2.1极速版)每秒0.24元。
- 本地部署(1.3B模型):
- 如果你的显卡拥有8GB以上的显存,可以直接在本地部署1.3B模型。
- 详细的部署步骤可以参考万相2.1的GitHub仓库。
未来展望:ComfyUI集成与生态构建
最令人期待的是万相2.1与ComfyUI的集成,这将为用户带来更多创作的可能性。
万相2.1的开源,无疑将对整个AI视频生态产生巨大的推动作用。
阿里“源神”之名,当之无愧?——对中国AI产业的信心
阿里在AI领域的布局已经初具规模,Qwen大模型遥遥领先,万相填补了AI视频领域的空白。阿里在AI上的策略,吸引了全球资本的关注,带动了中国资产的全面复苏。这让我们有理由对阿里、对DeepSeek、对整个中国的AI产业抱以更大的信心。
我认为:阿里“源神”之名,不仅仅是因为其在技术上的突破,更在于其开源共享的精神,以及对中国AI产业的推动。这不仅仅是一次技术的发布,更是一次信心的传递,一次对未来的期许。期待中国AI产业能够继续保持创新活力,在全球舞台上展现更强大的竞争力。 #万相2.1