AI模型井喷：国产模型崛起，图像视频音频全面开花

AI前沿12个月前发布 yizz

35,142 0 0

2025年7月AI行业大事记：趋势、模型、应用与未来展望

1. 模型发展趋势：国产模型迎来窗口期，垂直领域蓬勃发展

1.1 为什么说国产模型迎来窗口期？

由于海外顶尖模型如o3-Pro发布较少，国内模型获得了一个难得的追赶机会。例如，字节跳动的多模态推理模型Seed-1.6在功能上已经可以与海外模型媲美。

1.2 模型在垂直领域的发展体现在哪些方面？

模型在工具调用（Agent）和Coding等垂直领域发展迅速，这恰好代表了应用层面的两大热门板块。夸克的高考模型和网易的数学模型也表现出色，预示着垂直领域模型仍有巨大潜力。

2. 图像领域：国产模型破解GPT-Image-1，未来竞争聚焦审美与商业策略

2.1 Seededit 3.0、OminiGen2和Qwen VLo的出现意味着什么？

这些模型的出现表明，GPT-Image-1的秘密在短短3个月内就被中国公司完全破解。目前效果上的差异主要来源于训练数据的不同，因此，在图像编辑领域，国产模型的全面超越只是时间问题。

2.2 图像模型领域未来的竞争焦点是什么？

从功能的角度来看，图像模型领域的所有拼图已经完备，未来不同厂商的模型，应该就是审美和商业策略的竞争了。

3. 视频领域：中国公司崭露头角，Agent产品或成突破口

3.1 字节跳动和Minimax在视频领域的进展如何？

字节跳动和Minimax在视频上继续发力，都推出了新的模型，效果继续小幅度提升，与可灵相比各有千秋。OpenAI可能没有想到，最早由Sora开拓的视频领域，现今已是中国人的天下。

3.2 如何突破视频模型生成时长的限制？

视频的Agent产品开始陆续出现，通过Agent去自动拼接和剪辑视频，这可能才是突破视频模型生成时长限制的最优解决方案。

4. 音频领域：配音与音乐模型各有亮点，开源模型或将占据主导

4.1 配音领域有哪些值得关注的进展？

字节跳动的语音播客模型能够生成极为生动的双人对话，预示着音频模型在自动化分析情感方面仍有进一步发展的空间。

4.2 音乐领域的发展趋势是什么？

腾讯的开源模型效果已经堪比Suno早期的版本，可以预见，Vibe Music领域很快也会被开源模型拿下。

5. 3D与机器人领域：腾讯领跑3D，机器人大脑尚待成熟

5.1 3D领域的进展如何？

只有腾讯继续在3D领域进行更新，生成的模型质量又有了一些提高，不愧是游戏行业的领头羊。

5.2 机器人领域的发展现状是什么？

机器人的大脑（模型）还未成熟，所有研究都在早期阶段。两家头部的机器人公司恰好都在这个月完成了大额的融资，预计是在为较长的研发周期做好准备。

6. 应用领域：Coding竞争激烈，Agent走向分化，端侧应用崭露头角

6.1 Coding领域的竞争态势如何？

Coding领域竞争激烈，任何一家推出新功能，很快便会被所有竞争对手效仿。几乎所有大厂都推出了自己的AI Coding产品，最终受益的还是用户，编程会变得越来越简单。

6.2 Agent领域的发展方向是什么？

Agent领域开始分化。一边分化到了垂直领域，例如专注于信息搜索或多媒体创作的Agent；另一边分化到了浏览器，因为相比网页，浏览器有更广泛的本地权限可供使用。

6.3 端侧应用的发展前景如何？

随着端侧模型的发展，端侧应用开始有些起色。首先是苹果在新系统上开放了端侧AI的接口，开发者会更加容易开发出AI应用。另外，AI眼镜逐渐成为各厂商常见的数码产品，这会为AI应用带来一个巨大的新入口。

7. 新闻与融资：应用公司开发模型成趋势，美国AI资本市场疯狂

7.1 模型公司与应用公司的发展趋势是什么？

这个月没有看到任何模型公司获得融资，反而是拿到大额融资的应用公司开始推出自己的模型。未来，模型公司开发应用，而应用公司开发模型将会变得相当普遍。从今往后，可能不必再区分一家公司是从事应用还是模型，只是起点不同，最终殊途同归。

7.2 如何看待美国AI行业的资本市场？

美国AI行业的资本市场已经有些疯狂，过亿美金的跳槽费，20亿美金的种子轮，百亿美金的投资，这背后有不少都是Meta的手笔。这到底是FOMO的泡沫，还是AI真的可以带来万亿美金的市场？在25年中这个节点，这个问题似乎还没有明确的答案。

8. 行业动态精选：6月1日至6月30日

8.1 6月1日：AGI Bar开业，通义灵码AI IDE上线

AGI Bar：北京中关村迎来“泡沫最大”的AI主题酒吧，面对面的交流比网上聊天更有意思。
通义灵码AI IDE：阿里巴巴上线，辅助完成复杂编程任务，不再满足于只做其他IDE的插件。

8.2 6月2日：Luma AI视频后期工具，Character.AI多模态演进

Luma AI Modify Video：保留动态的同时一键改风格、换场景，Video2Video是现在国产模型比较欠缺的地方。
Character.AI：从文本聊天向多模态世界演进，打造沉浸式角色体验，AI陪伴领域已不满足于文字聊天。
IBM：收购数据分析初创公司 Seek AI。

8.3 6月3日：蚂蚁集团开源强化学习系统，TikTok上线创意视频工具

蚂蚁集团 X 清华大学 AReaL-boba²：全异步强化学习训练系统，RL训练提速2.77倍。
Fish Audio OpenAudio S1：发布并开源S1 Mini高可控多语言TTS模型。
TikTok Symphony Creative Studio：上线创意视频生成工具，一键生成TikTok广告，是否意味着其支持平台展示更多AI生成的内容？
Hugging Face SmolVLA：开源机器人模型，消费级设备本地流畅运行。
Anthropic：中断合作，Windsurf平台紧急调整Claude模型服务，对于AI应用公司，过度依赖某个闭源模型是一项重大风险因素。

8.4 6月4日：Mistral Code智能编程客户端，AMD收购AI软件优化团队

Mistral Code：智能编程客户端，支持私有化微调，AI IDE真的是兵家必争之地，而Mistral从模型层面找到了差异性。
AMD：收购AI软件优化团队Brium，并整合芯片公司Untether AI工程团队，希望AMD可以在推理方向打破英伟达的垄断。

8.5 6月5日：阿里巴巴开放WebDancer，Anysphere更新支持代码审查

阿里巴巴 WebDancer：开放自主多跳推理智能体，从零训练一个DeepResearch类智能体。
EleutherAI The Common Pile v0.1：开源语料库（8TB）&& Comma 模型。
Anysphere（Cursor）1.0：版本重要更新，支持代码审查与多任务后台处理，Cursor终于1.0版本了！但其已不再处于最领先地位。

8.6 6月6日：面壁智能MiniCPM 4.0，字节跳动SeedEdit 3.0

面壁智能 MiniCPM 4.0：端侧稀疏大模型，7倍速长文本处理，至今还专注于小模型的公司已经不多了。
阿里巴巴 Qwen3Embedding&Reranker：开源文本嵌入与排序模型，Qwen家族在开源领域的覆盖范围真的非常广泛。
小红书 dots.llm1：开源文本大模型，非常彻底的开源，好评，对学术研究帮助很大。
字节跳动 SeedEdit 3.0：通用图像编辑模型，准确遵循编辑指令，图像编辑领域，国产模型已经迎头赶上。
ElevenLabs Eleven v3：文本转语音模型，最具表现力的TTS模型。
Higgsfield AI Higgsfield Speak：上线数字人视频生成工具，快速制作说话视频，效果一流，但最长只能生成14秒的视频。
爱诗科技 AIsphere：发布国内版「拍我AI」视频生成应用，先出海，再回国内，成为了AI应用公司的一个经典路线。
智谱AMiner：沉思学术搜索工具，5分钟生成万字研究报告，算是学术论文这个垂直领域的Deep-Research。

8.7 6月9日：智源研究院开源多模态世界模型，商汤上线AI助手

智源研究院悟界Emu3：开源原生多模态世界模型，统一多模态的理解与生成，可以预见，国产的全模态模型很快就会爆发。
智源研究院悟界OpenComplex 2：开源全原子微观生命模型。
智源研究院悟界OmniGen2：开源统一图像生成模型，gpt-4o级别的图像生成，已经不再是秘密。
智源研究院悟界Video-XL-2：开源轻量级长视频理解模型，模型参数只有8B，很适合融入本地部署的工作流。
智源研究院悟界RoboOS 2.0 && RoboBrain 2.0：开源新一代具身智能系统。
智谱CoCo：企业级智能助手，安全接入内部资源赋能业务。
商汤小浣熊：上线AI数据分析助手与任务规划助手，交互式分解复杂任务，大模型公司做应用，有点降维打击的感觉。
硅基流动：完成数亿元人民币A轮融资，很好奇，硅基流动拿了这么多钱会投入哪个领域，是模型还是应用呢。

8.8 6月10日：Mistral AI发布多模态推理模型，Apple Intelligence进展缓慢

Mistral AI Magistral：发布多模态推理模型系列。
KREA AI Krea 1：推出图像生成模型，解决AI感并支持风格参考，AI应用公司开发自身模型，已成为众多应用公司在获得大额融资后，优先考虑的事项。
Apple WWDC2025：发布重磅更新，Apple Intelligence进展缓慢，Apple设备即将成为最广泛应用的端侧AI模型设备。
美团NoCode AI：页面生成工具，聊天式完成应用开发，美团居然也开发了一个vibe coding工具❗ 之后会成为美团商家版的功能之一吗❓

8.9 6月11日：字节跳动Seed1.6，OpenAI o3-pro，Genspark AI浏览器

字节跳动 Seed1.6：多模态通用模型，推理能力达到全球第一梯队，国产模型中，参数最大的多模态推理模型，字节又一次领先。
OpenAI o3-pro：旗舰推理模型，深度思考，高可靠，低成本，o3-pro已经不像一个模型了，更像一个Agent。
字节跳动豆包·语音播客模型：秒级生成双人对话式播客，效果非常惊艳，期待尽快开放API。
字节跳动 Seedance 1.0 pro：视频生成基础模型，支持多镜头叙事，实测下来，视频领域字节居然也领先了 ❗❗❗
Windsurf Planning Mode：规划模式，高效处理长周期任务，AI IDE已经进入了抄来抄去的阶段，不抄就落后。
Genspark AI：浏览器，内置超级AI与700+工具扩展，印证了我上个月的观点：与其做一个网页版的Agent，那为什么不进一步做个客户端呢。
The Browser Company DiaAI：浏览器，以AI为核心重塑浏览体验。

8.10 6月12日：阿里巴巴夸克高考志愿模型，Meta V-JEPA 2

阿里巴巴夸克：基于高考志愿大模型，精准推荐院校与专业。
Meta V-JEPA 2：自监督世界模型，实现零样本机器人控制，零样本机器人控制，是机器人发展的必经之路。
字节跳动 PromptPilot：智能提示词优化平台，随着模型的发展，大家发现提示词越来越重要。
360 纳米 AI：超级搜索智能体，打破信息壁垒交付答案，360在产品的嗅觉上，确实很灵敏。
Windsurf：浏览器，与编辑器无缝集成的AI浏览器，IDE也集成浏览器了，意料之外，情理之中。

8.11 6月13日：腾讯元宝高考志愿咨询，Scale AI获得Meta投资

腾讯元宝：高考志愿咨询功能上线，可生成专属志愿报告。
小红书问一问：站内AI搜索功能上线，入口过于隐蔽，说明对效果还是不够自信，什么时候可以作为搜索的第一屏呢。
Scale AI：获得Meta重大投资，估值超过290亿美元，首席执行官Alexandr Wang离职，Meta正式开启AI战略的新篇章。

8.12 6月14日：百度地图推出司机智能体，腾讯开源混元3D模型

百度地图：推出「小度想想」司机智能体，导航进入全语音自由交互时代。
腾讯：开源混元3D 2.1生成模型，纹理光影升级，支持多材质工业级建模，不愧是游戏大厂，这个模型在腾讯内部应该是可以实打实产生效益的。

8.13 6月15日：百度罗永浩数字人直播首秀

百度：罗永浩数字人直播首秀，GMV超5500万的拟真互动突破，百度这个数字人的效果确实很出色，让人眼前一亮。

8.14 6月16日：月之暗面开源Kimi-Dev-72B，腾讯开源SongGeneration

月之暗面 Kimi-Dev-72B：代码模型，刷新开源代码生成榜单纪录，基于通用模型再训练的垂直模型，是一个大趋势。
腾讯 SongGeneration：音乐生成大模型，高音质、强音乐性、极速生成，可以生成带人声的歌曲，生成的歌曲有Suno-v3.5的那个味了，离v4.5还差一点。

8.15 6月17日：Minimax开源 MiniMax-M1，腾讯元宝AI编程模式

Minimax MiniMax-M1：混合架构推理模型，支持百万级长上下文，实测不如字节的Seed-1.6，但胜在开源。
腾讯元宝：AI编程模式，支持在线运行多种语言，支持Python、C++、Java等语言在线运行是一个很独特的地方，自己有云就是不一样。

8.16 6月18日：Minimax Hailuo 02，Ling灵宇宙AI学伴

Minimax Hailuo 02：视频生成模型，兼具顶尖效果与成本效益，Minimax模型覆盖面也相当广，可用性也不错。
Ling 灵宇宙：AI学伴「小方机」，多模态交互式儿童学习终端，让人眼前一亮的硬件形态，我感觉很快会看到面向成年人的版本。
Higgsfield AI Higgsfield Canvas：图像编辑工具，实现像素级产品植入，基于自研的图像模型Soul做的一个小应用。
Glean：完成1.5亿美元F轮融资，估值达到72亿美元，国内暂时还没有对标的公司，国内还都在卷C端产品，企业服务算是国内AI领域的蓝海。
Wix：以8000万美元现金收购Base44，据说Base44只有8名员工，人均贡献1000万美金。

8.17 6月19日：Midjourney V1视频生成，宇树科技完成C轮融资

Midjourney V1：视频生成模型，图像一键生成视频并支持动态调节，MJ终于出视频模型了，用户不用再把图片复制到其他平台来生成视频了，视频生成功能逐渐成为图片生成平台的标配。
Niji Video：二次元视频生成模型，图像一键生成动漫风格视频。
Minimax Agent：通用智能体，具备专家级多步规划能力，又一个类Manus产品，评价褒贬不一。
智象未来（HiDream）vivago 2.0：平台上线，打造全能型创作助手。
宇树科技：完成C轮融资交割，投前估值超100亿元，作为机器人的头部企业，估值相对AI行业较为合理.

文章版权归作者所有，未经允许请勿转载。

6月份AI行业快讯摘要

AI前沿

3年前

31,4710

小白必看！高效推广AI产品的宝藏清单曝光！

AI前沿 # AI工具 # ChatGPT # 时事通讯

2年前

24,3930

为什么Project Mariner让我如此兴奋？

AI前沿 # AI # 思考 # 未来

2年前

30,7790

端侧AI技术2026年发展与应用场景分析

AI工具科技资讯 # AI # 人工智能 # 大模型

4个月前

11,5200