什么是多模态能力?
多模态能力是指大模型能够理解和处理多种类型的数据,包括音频、视频、图像和文本等。这种能力使得大模型更像人一样感知和互动,支撑智能体体验升级。
蚂蚁百灵大模型的多模态能力有哪些应用?
支付宝智能助理
蚂蚁百灵大模型的多模态能力已应用于“支付宝智能助理”上,未来还将支持支付宝上更多智能体升级。例如,根据用户语音指定直接在星巴克小程序下单一杯咖啡。
医疗领域
在医疗领域,多模态能力可以对超过100多种复杂的医学检验检测报告进行识别和解读,还可以检测毛发健康和脱发情况,为治疗提供辅助。
生活服务和搜索推荐
蚂蚁集团使用多模态模型实现了ACT技术,让智能体具备一定规划执行能力,已应用于生活服务、搜索推荐、互动娱乐等场景。
蚂蚁百灵大模型的多模态能力的技术水平如何?
评测成绩
百灵大模型多模态能力在中文图文理解MMBench-CN评测集上达到GPT-4o水平,在信通院多模态安全能力评测达到优秀级(最高)。
应用潜力
多模态大模型技术能够使AI更好地理解人类世界的复杂信息,也让AI落地应用时更符合人类的交互习惯,在智能客服、自动驾驶、医疗诊断等多个领域展现出巨大的应用潜力。
蚂蚁百灵大模型的多模态能力有哪些创新应用?
视频对话的自然形式
通过视频对话的自然形式,AI助理能为用户识别穿着打扮,给出约会的搭配建议。
食材搭配
根据用户不同的意图,从一堆食材中搭配出不同的菜谱组合。
药物推荐
根据用户描述的身体症状,从一批药物中,挑选出可能合适的药,并读出服用指导,供用户参考。
蚂蚁百灵大模型的多模态能力如何推动产业创新?
支付宝多模态医疗大模型
论坛上同时发布的“支付宝多模态医疗大模型”,添加了包含报告、影像、药品等多模态信息在内的百亿级中英文图文、千亿级医疗文本语料以及千万级高质量医疗知识图谱,具备专业医学知识。
遥感模型SkySense
由蚂蚁集团与武汉大学联合研发的遥感模型SkySense,是目前参数规模最大、覆盖任务最全、识别精度最高的多模态遥感基础模型,并公布了开源计划。
结论
“从单一的文本语义理解,到多模态能力,是人工智能技术的关键迭代,而多模态技术催生的‘看听说写画’的应用场景,将让AI的表现更真实,更接近人类,从而也能更好地服务人类。蚂蚁会持续投入原生多模态技术的研发。”徐鹏说。