【惊呆了】谷歌Gemini1.5pro长音频理解功能免费开放!100万上下文敞开使用!

AI前沿3周前更新 wanglu852
3,814 0 0
广告也精彩

谷歌Gemini免费开放!长音频理解功能独一份,100万上下文敞开使用

介绍

谷歌最强大模型Gemini 1.5 Pro 今天起,“全面”对外开放。目前完全免费,开发者可以通过API调用的方式使用,普通玩家也可以在谷歌AI Studio中直接体验。

特色功能

音频理解功能

Gemini 1.5 Pro API首次增加了音频理解功能。这意味着无需提供字幕文档,模型就能直接解读财报电话会、电视节目或大神演讲等长音频内容。

上下文窗口

由于Gemini 1.5 Pro的100万上下文窗口也直接对外开放,因此它可以处理的最长音频约为11小时,最长视频则为1小时。

实测体验

通过实测,Gemini 1.5 Pro对长音频的理解和分析能力令人印象深刻。例如,上传了一段音频后,在极短时间内就能精准整理出全对话的精华部分。

开发者API

谷歌官方将这次免费开放的Gemini 1.5 Pro版本定义为“公开预览版”,主要面向开发者。目前,音频理解功能还没添加到API中,但预计很快会补上。

新功能/改进

  • 系统指令:允许自定义特殊用例,包括角色、输出格式/风格/语气等。
  • JSON模式:可以指示模型仅输出JSON对象,便于提取结构化数据。
  • 函数调用改进:提高可靠性,限制模型的输出方式。

下一代文本嵌入模型

开发者还能通过该API调用谷歌的下一代文本嵌入模型:text-embedding-004(又名“Gecko”),该模型在MTEB基准上实现了强大的检索性能。

Gemini 1.5 Pro的发布背景

Gemini 1.5 Pro是Gemini Pro的升级版,发布于2月15日,距今还不到两个月。其最大亮点是上下文窗口长度从128k到最多100万。

总结

这次谷歌的Gemini 1.5 Pro开放,无疑为开发者和普通用户提供了一个强大的工具,尤其是在长音频理解领域的突破,让人们能更加方便地获取和理解大量信息。

个人感悟

谷歌Gemini 1.5 Pro的开放,不仅体现了AI技术的快速发展,也预示着未来人工智能在信息处理、理解和交互方面的巨大潜力。特别是对于开发者而言,这不仅是一个工具的开放,更是一个探索和创新的机会。随着技术的持续进步,我们可以期待AI将在更多领域展现出惊人的能力,为人类社会带来更多便利和进步。

标签: 谷歌, Gemini 1.5 Pro, 长音频理解, 上下文窗口, AI技术, 开发者API, 文本嵌入模型

© 版权声明
chatgpt4.0

相关文章

暂无评论

您必须登录才能参与评论!
立即登录
暂无评论...
error: Content is protected !!