Gemini模型升级：AI模型突破，I/O大会全解析

AI前言1年前发布 yizz

37,442 0 0

好的，收到你的指令。我将以专业的文案编辑助手身份，按照你的要求对原文进行整理、补充和润色，使其逻辑清晰、步骤详细、结构合理。

Google I/O 开发者大会 2024 全面解析：AI 模型、Gemini 产品、视觉生成等六大板块

零、Google AI Ultra 会员：Google 的战略核心

为什么 Google AI Ultra 会员如此重要？
Google 推出的 Google AI Ultra 会员（每月 249.99 美元）并非简单的会员服务，而是 Google 战略布局的重要一步。它整合了 Gemini 2.5 Pro Deep Think、Veo3、Project Mariner 等多款最新发布的产品，以及 NotebookLM、YouTube 等会员权益，体现了 Google 齐心协力、集中发力的决心。目前前三个月半价，每月 124.99 美元。

一、AI 模型：Gemini 系列全面升级

1. Gemini 2.5 Pro：全能冠军，碾压 LMArena

Gemini 2.5 Pro 有多强大？
Gemini 2.5 Pro 是本次大会的明星产品，在语言、推理、代码等方面全面提升，直接碾压 LMArena 的全部测试项。尤其在 WebDev 编码测试中，其 Elo 值比上代提升了 142 点，直接登顶。
Gemini 2.5 Pro 的有趣应用：
官方甚至让 Gemini 2.5 Pro 打通了《宝可梦：蓝》，成功收集八枚徽章，并战胜四大天王和冠军。

2. Gemini 2.5 Flash：速度型选手，高效劳模

Gemini 2.5 Flash 的特点是什么？
Gemini 2.5 Flash 被称为“最高效的劳模模型”，在推理、代码和长上下文等方面均有提升，在 LMArena 榜单上名列前茅，综合表现仅次于旗舰 Gemini 2.5 Pro。
如何体验 Gemini 2.5 Flash？
新版 Flash 模型预计在 6 月上旬上线正式版。用户可以在 AI Studio、Vertex AI 以及 Gemini App 中体验预览版，例如 AI Studio 里的 Gemini 2.5 Flash Preview 05-20。

3. Gemini 2.5 Pro Deep Think：超强模式，挑战极限

Gemini 2.5 Pro Deep Think 有什么优势？
Gemini 2.5 Pro Deep Think 是 Gemini 2.5 Pro 的超强模式，在超难的数学和编程基准测试中表现惊人。类似于 OpenAI 的 o1 pro 模型，通过增加推理时长来换取更高的质量。
如何使用 Gemini 2.5 Pro Deep Think？
目前 Gemini 2.5 Pro Deep Think 还在安全评估阶段，仅提供给信任的测试者使用。

4. Gemini Diffusion：并行生成，低延迟

Gemini Diffusion 的创新之处在哪里？
Gemini Diffusion 采用实验性的文本扩散大模型，通过逐步细化噪声来并行生成内容，而非传统的预测 Token 方式。这种并行生成方式使其具有惊人的低延迟，生成速度比 2.0 版本的 Flash Lite 快五倍，代码任务质量却几乎相等。

二、Gemini 产品：深度整合，个性化体验

1. Gemini Live：多模态交互，理解周围世界

Gemini Live 的核心功能是什么？
Gemini Live 整合了多模态交互的新功能，源自 Project Astra 的研究，旨在打造能理解你周围世界的通用 AI 助手。用户可以通过手机摄像头或屏幕与 AI 助手对话。
Gemini Live 的实际应用：
Gemini Live 可以纠正用户对事物的错误认知，并提供相关知识。例如，它可以识别垃圾车，并解释路灯的特性。视觉问答功能已在 Android 和 iOS 平台全面上线。

2. Personal Context：个性化定制，深度理解用户

Personal Context 如何实现个性化？
获得用户授权后，Gemini 可以打通用户的搜索历史、Gmail、Drive 等 Google 应用的信息，从而真正理解用户。例如，它可以根据用户的笔记、教授材料甚至手写笔记，为即将到来的物理考试提供个性化考题。

3. DeepResearch 和 Canvas 创作：深度研究，高效展示

DeepResearch 和 Canvas 有哪些新功能？
Deep Research 现在支持上传用户自己的文件进行深度研究。Canvas 迎来升级，可以将研究报告一键转换为网页、信息图，甚至 45 种语言的播客。此外，还可以在 Canvas 中预览前端代码，并分享给朋友。

4. Gemini 现身 Chrome：网页总结，即时解答

Gemini 如何在 Chrome 中提供帮助？
浏览网页时，Gemini 可以直接理解当前页面内容并回答用户的问题，相当于自带了一个 AI 总结的网页插件。

5. Gemini Agent Mode：智能代理，解放双手

Gemini Agent Mode 的作用是什么？
Gemini Agent Mode 允许用户指挥 AI 在网上替自己办事。例如，用户可以告知 AI 自己的找房需求，Gemini 会自动在 Zillow 等房产网站搜索符合条件的房源，并调用 Mariner 进行筛选，甚至自动提交看房预约。
如何体验 Gemini Agent Mode？
Gemini Agent Mode 仍在实验阶段，预计很快向订阅用户推出实验版。

三、视觉生成：Flow、Veo3、Imagen 4 引领创新

1. Flow：AI 电影制作工具，对标 Sora

Flow 的核心功能是什么？
Flow 是一款全新的 AI 电影制作工具，整合了 Veo、Imagen 和 Gemini 的能力，直接对标 Sora。用户可以上传自己的图片，或使用内置的 Imagen 生成素材，然后通过指令生成 AI 视频，并进行剪辑、延长和跳转镜头。
Flow 的使用限制：
目前 Flow 仅对美国开放，且只能使用其自带的 Image 生成素材，无法上传自定义图片。
- 如何使用Flow？
  1. 使用魔法访问：https://labs.google/fx/tools/flow
  2. 开通Ultra会员，每月125刀。

2. Veo3：原生音频生成，逼真度再升级

Veo3 的主要改进有哪些？
Veo 3 在画质和逼真度上更上一层楼，尤其对物理的理解更深厚，并首次加入了原生音频生成。这意味着生成的视频不仅有画面，还有背景音效、环境声甚至角色对话同步出现。
如何体验 Veo3？
Veo 3 已在 Flow 平台上线，但仅限 Ultra 会员使用，且生成视频需要消耗点数。
- 亲测Veo3效果
  - 提示语： A wide shot, post-apocalyptic setting: Dim industrial floodlights cast harsh shadows over a dusty underground hangar. A battle-scarred rebel commander stands atop a metal crate, addressing a crowd of grim-faced survivors. Commander: “This isn’t just about survival anymore. Tonight, we take back Sector 9!”
  - 效果： 确实能说话能表演有音效了
  - 提示语：The robot in the high air lands, smashing stones and tumbling, quickly gets up to adjust its posture, locks onto the target, then bursts into accelerated running. The camera follows the action with rotation and sliding, the rhythm of movement is fast, the landing and rolling are smooth without cuts. The scene is a nighttime city alley, with neon lights reflecting off the metal body.
  - 效果： 物理规律史诗级进步，能落地能转能跑起来了
  - 提示语： The girl jumps and shoots the basketball; the camera follows the ball as it flies from her hand, spinning into the net after soaring over the defender. The ball falls into the hoop’s net and slowly bounces back. The audience erupts, cheering loudly. The camera finally zooms in on a close-up of the girl landing with a smile, evoking a passionate and inspiring mood.
  - 效果： 甚至，还能投篮了。

3. Imagen 4：文本生成图像，细节更精致

Imagen 4 有哪些显著提升？
Imagen 4 是最新一代的文本生成图像模型，画质有质的飞跃，颜色更丰富、细节更精致，尤其在光影质感和水滴等微小元素上表现出色。此外，Imagen 4 在文字嵌入问题上也有重大改进，能准确生成文本内容，并智能选择字体样式。
如何使用 Imagen 4？
Imagen 4 已全量上线，普通用户可在 Whisk 上使用。
- 访问地址：https://labs.google/fx/zh/tools/whisk

四、Google 搜索：AI 赋能，全面重构

1. AI Overviews：生成式摘要，提升搜索效率

AI Overviews 的作用是什么？
AI Overviews 是 Google 搜索引入的 AI 概览功能，每月已有超过 15 亿用户使用。它在搜索结果顶部生成由 Gemini 模型生成的简述，并附带信息来源引用。
AI Overviews 的优势：
AI Overviews 质量和相关性不断提高，生成结果更准确、覆盖面更广，并支持更复杂的问题。目前已在包括美国、印度在内的 40 多个国家/地区上线，并支持多语种查询。

2. AI Mode：端到端 AI 搜索体验，对话式报告

AI Mode 如何重塑搜索体验？
AI Mode 是一种端到端的 AI 搜索体验，允许用户提出更长更复杂的问题，无需精简成关键词。它可以根据用户的搜索记录和 Gmail 信息给出更贴心的建议，并提供个性化搜索结果。
AI Mode 的主要功能：
- 个性化搜索结果：根据用户过去的搜索记录和 Gmail 信息，提供更贴心的建议。
- Deep Search（深度研究）：针对需要深入研究的问题，同时发出几十甚至上百个搜索请求，并将信息汇总成一份专家级的、带引用的报告。
- 复杂数据分析与可视化：对棒球运动员的数据进行分析，并生成图表。
- AI 帮你办事儿：整合了 Project Mariner 的能力，帮助用户完成实际操作，如购买球赛门票、预订餐厅等。
- AI 购物更爽：根据用户的描述推荐商品，并提供购买链接和注意事项，甚至提供虚拟试衣功能。
AI Mode 的上线时间：
AI Mode 已作为实验新功能向美国所有用户开放。

五、Agent 系统：Project Mariner 和 Jules 助力自动化

1. Project Mariner：AI 驱动的自动化浏览器助手

Project Mariner 的核心功能是什么？
Project Mariner 是 AI 驱动的自动化浏览器助手，可以在网络上代替用户执行操作。它具有多任务处理能力，可以同时监督多达 10 项任务并行执行，并引入了“示范并重复 (Teach and Repeat)”功能，用户示范一次，它便学会流程，以后遇到类似任务就能直接上手。
Project Mariner 的应用：
Mariner 已开始通过 Gemini API 向开发者提供其用电脑的能力，预计今年夏天会更大范围开放。

2. Jules：AI 编程助手，连接 GitHub

Jules 的作用是什么？
Jules 是一款 AI 编程 Agent，可以连接 GitHub，自动拉取和提交代码等。
如何使用 Jules？
Jules 目前在全球测试中，提供每天 5 次的免费额度，但必须连接 GitHub 才能使用。

六、其他：NotebookLM、Android XR、Google Beam 等

1. NotebookLM：AI 整理笔记，独立应用上线

NotebookLM 的功能：
NotebookLM 是一款 AI 笔记整理工具，已正式推出独立应用，并登陆 Android 和 iOS 平台。用户可以随时随地调用 NotebookLM 来整理笔记和知识。

2. Gemini 融入安卓全家桶：无处不在的 AI 助手

Gemini 在安卓生态中的应用：
用户可以通过电源按钮快速启动 Gemini。未来几个月，Gemini 还将登陆智能手表、汽车仪表盘甚至电视。

3. Project Moohan 头显：三星联合打造，Android XR 设备

Project Moohan 的特点：
Project Moohan 是与三星联合打造的头显，也是第一款 Android XR 设备，预计今年晚些时候上市。

4. Android XR 智能眼镜：轻便易用，功能丰富

Android XR 智能眼镜的功能：
Android XR 智能眼镜轻便、适合全天佩戴，内置摄像头、麦克风、扬声器，甚至可选的镜内显示屏。它可以识别用户看到的东西，回答问题，播放音乐，导航，甚至识别咖啡品牌并找到咖啡店。此外，还支持实时翻译功能。

5. Google Beam：3D 视频通话，真人就在眼前

Google Beam 的技术特点：
Google Beam 采用包含 6 个摄像头的阵列从不同角度捕捉用户，然后通过 AI 将这些视频流融合成逼真的 3D 体验，显示在 3D 光场显示器上，还能以毫米级精度、每秒 60 帧实时追踪头部。
Google Beam 的未来：
惠普将推出首批 Google Beam 设备。

6. Google Meet 实时语音翻译：打破语言障碍

Google Meet 实时语音翻译的功能：
这项技术能让不同语言的人进行自然流畅的对话，翻译能匹配说话者的语气、语速甚至表情。目前已在 Google Meet 里上线，支持英语和西班牙语，更多语言和企业版会陆续推出。

7. TPU Ironwood：第七代 TPU，AI 算力提升

TPU Ironwood 的性能：
TPU Ironwood 是第七代 TPU，专为 AI 的思考和推理大规模应用而设计，性能比上一代提升 10 倍，预计今年晚些时候上线 Google Cloud。

8. SynthID 数字水印：应对 AI 生成内容，可信度提升

SynthID 的作用：
为了应对 AI 生成内容难以辨别的问题，Google 升级了 SynthID。新的 SynthID Detector 能检测图片、音频、文本或视频中是否包含 SynthID 标记，即使只是一小部分。

总结

Google I/O 开发者大会 2024 带来了大量创新产品和技术，涵盖 AI 模型、Gemini 产品、视觉生成、Google 搜索、Agent 系统等多个领域。其中，Gemini 2.5 Pro、Flow、Veo3、AI Mode 等产品备受关注，展现了 Google 在 AI 领域的强大实力和创新能力。

我认为：Google 这次是真的回来了，不再是那个步履蹒跚的巨人，而是一个充满活力、不断创新的科技领头羊。其在 AI 领域的投入和布局，以及对用户体验的重视，都让人看到了 Google 的未来潜力。然而，许多新功能和服务仍处于实验阶段，能否真正落地并获得用户认可，还有待进一步观察。正如鲁迅先生所说：“希望本无所谓有，无所谓无的。这正如地上的路；其实地上本没有路，走的人多了，也便成了路。” Google 的 AI 之路，还需不断探索和实践。

我的感悟：

这次 Google I/O 大会的内容信息量非常大，可以看出 Google 在 AI 领域下了很大的决心和功夫。从底层的 AI 模型到上层的应用产品，再到未来的技术方向，Google 都做了全面的布局。虽然有些产品还在实验阶段，但已经展现出了巨大的潜力。总的来说，这次大会让人对 Google 的未来充满了期待。

AI前言 # AI # AI模型 # Gemini # Google # GoogleIO # keywords # Mode # pro # 关键词

文章版权归作者所有，未经允许请勿转载。

Gemini API免费用？- Github开源项目 – 多账号轮询秘籍

AI前沿 # api # APIR轮询 # balance

1年前

70,2800

Z-Image崛起：参数少效果好，Flux2图像生成时代或终结？

AI前沿 # AI # AI绘画 # DiT

7个月前

30,4510

精选AI工具：多领域实用推荐，稳定易用性对比

AI前言 # AI # AI助手 # AI工具

1年前

35,6880

为什么说Hume AI的语音模型“太疯狂了”？

AI前沿 # AI # 人工智能 # 未来

2年前

22,4760