Gemini 2.0:免费AI模型的全能进化,工作流的革命性替代
为什么选择 Gemini 2.0?
你是否还在为高昂的 API 费用和复杂的 AI 应用设置而烦恼?“一时free一时happy,一直free一直happy”这句话可能道出了许多人的心声。Gemini 2.0 的出现,无疑为我们带来了全新的选择。Gemini-2.0-flash-exp 和 gemini-2.0-flash-thinking-exp 模型的强大性能,已经让我每天都离不开它们。虽然名字有点长,但它们分别对标 GPT-4o 和 o1。
- 性能卓越:2.0-flash 在 SWE-bench(代码能力评估) 中超越了 Claude-Sonnet-3.5,而 2.0-flash-thinking 在 LMArena 的所有类别中更是荣获冠军。
- 速度惊人:Gemini 2.0 的速度比 o1 快 5 倍!
- 透明度高:Gemini 2.0 公开了思考过程,不像 o1 每次都因这点被吐槽。
- 免费使用:区别于昂贵的 o1 API 和动辄封号的 Claude,Gemini 2.0 是免费的!这使得我们能用它做很多事情。
- 功能全面:Gemini 2.0 可以进行翻译、编程、日常对话、联网搜索、中文视频聊天、视频剪辑、屏幕共享等多种任务,几乎取代了我其他 AI 应用的工作。
以前我如何搭配不同的模型?
以前,为了节约成本,我会使用不同的 API 和网页版模型,我的选择是:
- 日常对话:Gemini 1.5 Flash
- 翻译:Llama-3.1-70B
- 代码:Deepseek-V2.5
- 本地:qwen-7b-instruct-q5_K_M
- 网页版:GPT-4o
为什么 Gemini 2.0 取代了这些模型?
经过两周的尝试,我发现 Gemini 2.0 几乎可以取代上述所有应用,主要有以下几个优点:
- 无需自建服务:不再需要管理十几个 API,降低了维护成本。
- 无需担心费用:免费使用,不再有费用焦虑。
- 功能更强大:一个 Gemini 2.0 可以完成所有任务,效率更高。
如何使用 Gemini 2.0?
如何获取 Gemini 的 API Key?
获取 Gemini 的 API Key 非常简单,只需几步:
- 访问 https://makersuite.google.com/。
- 使用你的 Google 账号登录。
- 点击 “Get API Key” -> “Create API key in new project”。
- 你得到的 Key 就是之后所有设置的“万能钥匙”。
如何在本地使用 Gemini 2.0?
我推荐使用 Chatbox 作为本地大模型对话端,它更新速度快,并且支持几乎全系列的 Gemini 模型,单单 Gemini 系列就有 30 个。
- 在 Chatbox 软件操作界面的右下角点击“设置”。
- 选择 Gemini 模型。
- 你可以自定义设置上下文消息上限(建议 12-18 个)、Temperature(建议 0.5-0.7)。
现在,你可以使用 Gemini 2.0 进行推理,甚至回答“9.11 跟 9.9 哪个大”这种问题。
Gemini 2.0 在代码生成方面表现如何?
Gemini 2.0 在代码生成方面也非常出色。我使用 Cursor 来进行代码编写,它已经半取代了我的 VSCode。
- Cursor 原生支持 Gemini。
- 实际生成速度非常快。
Gemini 2.0 在其他方面的应用
网页 & PDF 翻译
我主要使用 沉浸式翻译 进行网页和 PDF 翻译,并搭配 Bob 来实现更灵活的划词和图片翻译。
- 沉浸式翻译 和 Bob 原生支持 Gemini API Key,设置简单。
- 1.5-flash 的翻译速度很快,且翻译质量高。
视频聊天 & 屏幕共享
Gemini 2.0 的实时语音加屏幕获取功能非常实用,我使用 https://www.dinopal.ai 这个软件。
- 相比官网,它支持中文聊天。
- 体验比 GPT mac 应用更流畅。
我可以让 Gemini 帮我调整生成的图片风格,但作为实时辅助还有一段距离。我期待它能与 AI 眼镜、AI 耳机联动,带来更多新玩法。
视频剪辑 & 辅助视频生成
Gemini 的多模态能力非常强大。
- 视频自动剪辑:Gemini 2.0 可以直接理解到精确毫秒的信息,在没有大量 prompt 的情况下,可以剪除气口,保留有效信息。
-
控制时间轴的视频生成:通过在 prompt 上写上具体的时间节点,可以控制镜头的运动。
- 在 AI Studio 选择 Starter APPs。
- 选择 Video Analyzer。
- 上传视频。
- 选择 Custom。
- 输入提示词(例如:视频每一个分镜的开始时间和画面详细描述,时间需要精确到小数点后两位,画面描述需要非常详细,比如环境描述、人物表情穿着、氛围等)。
- 等待 Gemini 生成提示词。
- 输入 海螺 进行文生视频。
这个功能是有论文支持的!
内容复制与音效建议
Gemini 还可以进行内容复制和衍生创作。我制作了一个卡比兽和可达鸭推倒比萨斜塔的视频,上传到 AI Studio,让 Gemini 给出合适的音效建议,然后在 11labs 中制作出合适的音效。
总结
可以说,拥有 Gemini API Key,相当于拥有了五个 AI 应用的功能。Gemini 2.0 的出现,绝对值得我们等待!
- Gemini 1.0 侧重于组织和理解信息。
- Gemini 2.0 让信息变得更加有用。
这就像人类从石器时代到今天操控信息网一样,是人工智能的升级。我已经迫不及待地想看看下一个时代会带来什么。
我的感悟
我认为:这 Gemini 2.0 的出现,像一股清流,冲刷着那些被资本裹挟的 AI 模型。它免费、强大,就像一个不拘一格的英雄,横扫了之前那些收费昂贵、限制颇多的 “名门正派”。以前我们像辛勤的农夫,在不同的田地里耕耘,如今只需要一块肥沃的土地,就能收获所有的果实。这种技术进步的普惠性,真是让人心情舒畅。它不仅是技术的升级,更是对公平和效率的一种追求,让我们看到了 AI 的无限可能性。