AI模型井喷:国产模型崛起,图像视频音频全面开花

AI前沿5小时前发布 yizz
1,812 0 0
广告也精彩

2025年7月AI行业大事记:趋势、模型、应用与未来展望

1. 模型发展趋势:国产模型迎来窗口期,垂直领域蓬勃发展

1.1 为什么说国产模型迎来窗口期

由于海外顶尖模型如o3-Pro发布较少,国内模型获得了一个难得的追赶机会。例如,字节跳动的多模态推理模型Seed-1.6在功能上已经可以与海外模型媲美。

1.2 模型在垂直领域的发展体现在哪些方面?

模型在工具调用(Agent)Coding等垂直领域发展迅速,这恰好代表了应用层面的两大热门板块。夸克的高考模型和网易的数学模型也表现出色,预示着垂直领域模型仍有巨大潜力。

2. 图像领域:国产模型破解GPT-Image-1,未来竞争聚焦审美与商业策略

2.1 Seededit 3.0OminiGen2Qwen VLo的出现意味着什么?

这些模型的出现表明,GPT-Image-1的秘密在短短3个月内就被中国公司完全破解。目前效果上的差异主要来源于训练数据的不同,因此,在图像编辑领域,国产模型的全面超越只是时间问题。

2.2 图像模型领域未来的竞争焦点是什么?

从功能的角度来看,图像模型领域的所有拼图已经完备,未来不同厂商的模型,应该就是审美商业策略的竞争了。

3. 视频领域:中国公司崭露头角,Agent产品或成突破口

3.1 字节跳动Minimax在视频领域的进展如何?

字节跳动Minimax在视频上继续发力,都推出了新的模型,效果继续小幅度提升,与可灵相比各有千秋。OpenAI可能没有想到,最早由Sora开拓的视频领域,现今已是中国人的天下。

3.2 如何突破视频模型生成时长的限制?

视频的Agent产品开始陆续出现,通过Agent去自动拼接和剪辑视频,这可能才是突破视频模型生成时长限制的最优解决方案。

4. 音频领域:配音与音乐模型各有亮点,开源模型或将占据主导

4.1 配音领域有哪些值得关注的进展?

字节跳动的语音播客模型能够生成极为生动的双人对话,预示着音频模型在自动化分析情感方面仍有进一步发展的空间。

4.2 音乐领域的发展趋势是什么?

腾讯的开源模型效果已经堪比Suno早期的版本,可以预见,Vibe Music领域很快也会被开源模型拿下。

5. 3D与机器人领域:腾讯领跑3D,机器人大脑尚待成熟

5.1 3D领域的进展如何?

只有腾讯继续在3D领域进行更新,生成的模型质量又有了一些提高,不愧是游戏行业的领头羊。

5.2 机器人领域的发展现状是什么?

机器人的大脑(模型)还未成熟,所有研究都在早期阶段。两家头部的机器人公司恰好都在这个月完成了大额的融资,预计是在为较长的研发周期做好准备。

6. 应用领域:Coding竞争激烈,Agent走向分化,端侧应用崭露头角

6.1 Coding领域的竞争态势如何?

Coding领域竞争激烈,任何一家推出新功能,很快便会被所有竞争对手效仿。几乎所有大厂都推出了自己的AI Coding产品,最终受益的还是用户,编程会变得越来越简单。

6.2 Agent领域的发展方向是什么?

Agent领域开始分化。一边分化到了垂直领域,例如专注于信息搜索或多媒体创作的Agent;另一边分化到了浏览器,因为相比网页,浏览器有更广泛的本地权限可供使用。

6.3 端侧应用的发展前景如何?

随着端侧模型的发展,端侧应用开始有些起色。首先是苹果在新系统上开放了端侧AI的接口,开发者会更加容易开发出AI应用。另外,AI眼镜逐渐成为各厂商常见的数码产品,这会为AI应用带来一个巨大的新入口。

7. 新闻与融资:应用公司开发模型成趋势,美国AI资本市场疯狂

7.1 模型公司与应用公司的发展趋势是什么?

这个月没有看到任何模型公司获得融资,反而是拿到大额融资的应用公司开始推出自己的模型。未来,模型公司开发应用,而应用公司开发模型将会变得相当普遍。从今往后,可能不必再区分一家公司是从事应用还是模型,只是起点不同,最终殊途同归。

7.2 如何看待美国AI行业的资本市场?

美国AI行业的资本市场已经有些疯狂,过亿美金的跳槽费,20亿美金的种子轮,百亿美金的投资,这背后有不少都是Meta的手笔。这到底是FOMO的泡沫,还是AI真的可以带来万亿美金的市场?在25年中这个节点,这个问题似乎还没有明确的答案。

8. 行业动态精选:6月1日至6月30日

8.1 6月1日:AGI Bar开业,通义灵码AI IDE上线

  • AGI Bar:北京中关村迎来“泡沫最大”的AI主题酒吧,面对面的交流比网上聊天更有意思。
  • 通义灵码AI IDE:阿里巴巴上线,辅助完成复杂编程任务,不再满足于只做其他IDE的插件。

8.2 6月2日:Luma AI视频后期工具,Character.AI多模态演进

  • Luma AI Modify Video:保留动态的同时一键改风格、换场景,Video2Video是现在国产模型比较欠缺的地方。
  • Character.AI:从文本聊天向多模态世界演进,打造沉浸式角色体验,AI陪伴领域已不满足于文字聊天。
  • IBM:收购数据分析初创公司 Seek AI。

8.3 6月3日:蚂蚁集团开源强化学习系统,TikTok上线创意视频工具

  • 蚂蚁集团 X 清华大学 AReaL-boba²:全异步强化学习训练系统,RL训练提速2.77倍。
  • Fish Audio OpenAudio S1:发布并开源S1 Mini高可控多语言TTS模型。
  • TikTok Symphony Creative Studio:上线创意视频生成工具,一键生成TikTok广告,是否意味着其支持平台展示更多AI生成的内容?
  • Hugging Face SmolVLA:开源机器人模型,消费级设备本地流畅运行。
  • Anthropic:中断合作,Windsurf平台紧急调整Claude模型服务,对于AI应用公司,过度依赖某个闭源模型是一项重大风险因素。

8.4 6月4日:Mistral Code智能编程客户端,AMD收购AI软件优化团队

  • Mistral Code:智能编程客户端,支持私有化微调,AI IDE真的是兵家必争之地,而Mistral从模型层面找到了差异性。
  • AMD:收购AI软件优化团队Brium,并整合芯片公司Untether AI工程团队,希望AMD可以在推理方向打破英伟达的垄断。

8.5 6月5日:阿里巴巴开放WebDancer,Anysphere更新支持代码审查

  • 阿里巴巴 WebDancer:开放自主多跳推理智能体,从零训练一个DeepResearch类智能体。
  • EleutherAI The Common Pile v0.1:开源语料库(8TB)&& Comma 模型。
  • Anysphere(Cursor)1.0:版本重要更新,支持代码审查与多任务后台处理,Cursor终于1.0版本了!但其已不再处于最领先地位。

8.6 6月6日:面壁智能MiniCPM 4.0,字节跳动SeedEdit 3.0

  • 面壁智能 MiniCPM 4.0:端侧稀疏大模型,7倍速长文本处理,至今还专注于小模型的公司已经不多了。
  • 阿里巴巴 Qwen3Embedding&Reranker:开源文本嵌入与排序模型,Qwen家族在开源领域的覆盖范围真的非常广泛。
  • 小红书 dots.llm1:开源文本大模型,非常彻底的开源,好评,对学术研究帮助很大。
  • 字节跳动 SeedEdit 3.0:通用图像编辑模型,准确遵循编辑指令,图像编辑领域,国产模型已经迎头赶上。
  • ElevenLabs Eleven v3:文本转语音模型,最具表现力的TTS模型。
  • Higgsfield AI Higgsfield Speak:上线数字人视频生成工具,快速制作说话视频,效果一流,但最长只能生成14秒的视频。
  • 爱诗科技 AIsphere:发布国内版「拍我AI」视频生成应用,先出海,再回国内,成为了AI应用公司的一个经典路线。
  • 智谱AMiner:沉思学术搜索工具,5分钟生成万字研究报告,算是学术论文这个垂直领域的Deep-Research。

8.7 6月9日:智源研究院开源多模态世界模型,商汤上线AI助手

  • 智源研究院悟界Emu3:开源原生多模态世界模型,统一多模态的理解与生成,可以预见,国产的全模态模型很快就会爆发。
  • 智源研究院悟界OpenComplex 2:开源全原子微观生命模型。
  • 智源研究院悟界OmniGen2:开源统一图像生成模型,gpt-4o级别的图像生成,已经不再是秘密。
  • 智源研究院悟界Video-XL-2:开源轻量级长视频理解模型,模型参数只有8B,很适合融入本地部署的工作流。
  • 智源研究院悟界RoboOS 2.0 && RoboBrain 2.0:开源新一代具身智能系统。
  • 智谱CoCo:企业级智能助手,安全接入内部资源赋能业务。
  • 商汤小浣熊:上线AI数据分析助手与任务规划助手,交互式分解复杂任务,大模型公司做应用,有点降维打击的感觉。
  • 硅基流动:完成数亿元人民币A轮融资,很好奇,硅基流动拿了这么多钱会投入哪个领域,是模型还是应用呢。

8.8 6月10日:Mistral AI发布多模态推理模型,Apple Intelligence进展缓慢

  • Mistral AI Magistral:发布多模态推理模型系列。
  • KREA AI Krea 1:推出图像生成模型,解决AI感并支持风格参考,AI应用公司开发自身模型,已成为众多应用公司在获得大额融资后,优先考虑的事项。
  • Apple WWDC2025:发布重磅更新,Apple Intelligence进展缓慢,Apple设备即将成为最广泛应用的端侧AI模型设备。
  • 美团NoCode AI:页面生成工具,聊天式完成应用开发,美团居然也开发了一个vibe coding工具❗ 之后会成为美团商家版的功能之一吗❓

8.9 6月11日:字节跳动Seed1.6,OpenAI o3-pro,Genspark AI浏览器

  • 字节跳动 Seed1.6:多模态通用模型,推理能力达到全球第一梯队,国产模型中,参数最大的多模态推理模型,字节又一次领先。
  • OpenAI o3-pro:旗舰推理模型,深度思考,高可靠,低成本,o3-pro已经不像一个模型了,更像一个Agent。
  • 字节跳动 豆包·语音播客模型:秒级生成双人对话式播客,效果非常惊艳,期待尽快开放API。
  • 字节跳动 Seedance 1.0 pro:视频生成基础模型,支持多镜头叙事,实测下来,视频领域字节居然也领先了 ❗❗❗
  • Windsurf Planning Mode:规划模式,高效处理长周期任务,AI IDE已经进入了抄来抄去的阶段,不抄就落后。
  • Genspark AI:浏览器,内置超级AI与700+工具扩展,印证了我上个月的观点:与其做一个网页版的Agent,那为什么不进一步做个客户端呢。
  • The Browser Company DiaAI:浏览器,以AI为核心重塑浏览体验。

8.10 6月12日:阿里巴巴夸克高考志愿模型,Meta V-JEPA 2

  • 阿里巴巴 夸克:基于高考志愿大模型,精准推荐院校与专业。
  • Meta V-JEPA 2:自监督世界模型,实现零样本机器人控制,零样本机器人控制,是机器人发展的必经之路。
  • 字节跳动 PromptPilot:智能提示词优化平台,随着模型的发展,大家发现提示词越来越重要。
  • 360 纳米 AI:超级搜索智能体,打破信息壁垒交付答案,360在产品的嗅觉上,确实很灵敏。
  • Windsurf:浏览器,与编辑器无缝集成的AI浏览器,IDE也集成浏览器了,意料之外,情理之中。

8.11 6月13日:腾讯元宝高考志愿咨询,Scale AI获得Meta投资

  • 腾讯 元宝:高考志愿咨询功能上线,可生成专属志愿报告。
  • 小红书 问一问:站内AI搜索功能上线,入口过于隐蔽,说明对效果还是不够自信,什么时候可以作为搜索的第一屏呢。
  • Scale AI:获得Meta重大投资,估值超过290亿美元,首席执行官Alexandr Wang离职,Meta正式开启AI战略的新篇章。

8.12 6月14日:百度地图推出司机智能体,腾讯开源混元3D模型

  • 百度地图:推出「小度想想」司机智能体,导航进入全语音自由交互时代。
  • 腾讯:开源混元3D 2.1生成模型,纹理光影升级,支持多材质工业级建模,不愧是游戏大厂,这个模型在腾讯内部应该是可以实打实产生效益的。

8.13 6月15日:百度罗永浩数字人直播首秀

  • 百度:罗永浩数字人直播首秀,GMV超5500万的拟真互动突破,百度这个数字人的效果确实很出色,让人眼前一亮。

8.14 6月16日:月之暗面开源Kimi-Dev-72B,腾讯开源SongGeneration

  • 月之暗面 Kimi-Dev-72B:代码模型,刷新开源代码生成榜单纪录,基于通用模型再训练的垂直模型,是一个大趋势。
  • 腾讯 SongGeneration:音乐生成大模型,高音质、强音乐性、极速生成,可以生成带人声的歌曲,生成的歌曲有Suno-v3.5的那个味了,离v4.5还差一点。

8.15 6月17日:Minimax开源MiniMax-M1,腾讯元宝AI编程模式

  • Minimax MiniMax-M1:混合架构推理模型,支持百万级长上下文,实测不如字节的Seed-1.6,但胜在开源。
  • 腾讯 元宝:AI编程模式,支持在线运行多种语言,支持Python、C++、Java等语言在线运行是一个很独特的地方,自己有云就是不一样。

8.16 6月18日:Minimax Hailuo 02,Ling灵宇宙AI学伴

  • Minimax Hailuo 02:视频生成模型,兼具顶尖效果与成本效益,Minimax模型覆盖面也相当广,可用性也不错。
  • Ling 灵宇宙:AI学伴「小方机」,多模态交互式儿童学习终端,让人眼前一亮的硬件形态,我感觉很快会看到面向成年人的版本。
  • Higgsfield AI Higgsfield Canvas:图像编辑工具,实现像素级产品植入,基于自研的图像模型Soul做的一个小应用。
  • Glean:完成1.5亿美元F轮融资,估值达到72亿美元,国内暂时还没有对标的公司,国内还都在卷C端产品,企业服务算是国内AI领域的蓝海。
  • Wix:以8000万美元现金收购Base44,据说Base44只有8名员工,人均贡献1000万美金。

8.17 6月19日:Midjourney V1视频生成,宇树科技完成C轮融资

  • Midjourney V1:视频生成模型,图像一键生成视频并支持动态调节,MJ终于出视频模型了,用户不用再把图片复制到其他平台来生成视频了,视频生成功能逐渐成为图片生成平台的标配。
  • Niji Video:二次元视频生成模型,图像一键生成动漫风格视频。
  • Minimax Agent:通用智能体,具备专家级多步规划能力,又一个类Manus产品,评价褒贬不一。
  • 智象未来(HiDream)vivago 2.0:平台上线,打造全能型创作助手。
  • 宇树科技:完成C轮融资交割,投前估值超100亿元,作为机器人的头部企业,估值相对AI行业较为合理.
© 版权声明
chatgpt4.0

相关文章

error: Content is protected !!