谷歌Gemini免费开放!长音频理解功能独一份,100万上下文敞开使用
介绍
谷歌最强大模型Gemini 1.5 Pro 今天起,“全面”对外开放。目前完全免费,开发者可以通过API调用的方式使用,普通玩家也可以在谷歌AI Studio中直接体验。
特色功能
音频理解功能
Gemini 1.5 Pro API首次增加了音频理解功能。这意味着无需提供字幕文档,模型就能直接解读财报电话会、电视节目或大神演讲等长音频内容。
上下文窗口
由于Gemini 1.5 Pro的100万上下文窗口也直接对外开放,因此它可以处理的最长音频约为11小时,最长视频则为1小时。
实测体验
通过实测,Gemini 1.5 Pro对长音频的理解和分析能力令人印象深刻。例如,上传了一段音频后,在极短时间内就能精准整理出全对话的精华部分。
开发者API
谷歌官方将这次免费开放的Gemini 1.5 Pro版本定义为“公开预览版”,主要面向开发者。目前,音频理解功能还没添加到API中,但预计很快会补上。
新功能/改进
- 系统指令:允许自定义特殊用例,包括角色、输出格式/风格/语气等。
- JSON模式:可以指示模型仅输出JSON对象,便于提取结构化数据。
- 函数调用改进:提高可靠性,限制模型的输出方式。
下一代文本嵌入模型
开发者还能通过该API调用谷歌的下一代文本嵌入模型:text-embedding-004(又名“Gecko”),该模型在MTEB基准上实现了强大的检索性能。
Gemini 1.5 Pro的发布背景
Gemini 1.5 Pro是Gemini Pro的升级版,发布于2月15日,距今还不到两个月。其最大亮点是上下文窗口长度从128k到最多100万。
总结
这次谷歌的Gemini 1.5 Pro开放,无疑为开发者和普通用户提供了一个强大的工具,尤其是在长音频理解领域的突破,让人们能更加方便地获取和理解大量信息。
个人感悟
谷歌Gemini 1.5 Pro的开放,不仅体现了AI技术的快速发展,也预示着未来人工智能在信息处理、理解和交互方面的巨大潜力。特别是对于开发者而言,这不仅是一个工具的开放,更是一个探索和创新的机会。随着技术的持续进步,我们可以期待AI将在更多领域展现出惊人的能力,为人类社会带来更多便利和进步。
标签: 谷歌, Gemini 1.5 Pro, 长音频理解, 上下文窗口, AI技术, 开发者API, 文本嵌入模型