阿里发布通义千问全新Qwen-VL多模态LLM,超越GPT-4V和谷歌Gemin!

AI前沿1个月前更新 wanglu852
3,867 0 0

概述

2023年4月7日,阿里云首次开启了通义千问(CommonsenseQA)的旅程,四个月前,阿里首次发布Qwen-7B大型语言模型(LLM),正式开启了开源之旅。此次我们将详细介绍Qwen开源家族,在此基础上更全面的展示我们的当前工作和未来目标。

内测地址回复【阿里】即可体验max版本plus版本

模型特性

  • Qwen-VL-Max和Qwen-VL-Plus可以理解流程图等复杂形式图片,可以分析复杂图标,实现看图做题、看图作文、看图写代码等任务。
  • 具备视觉定位能力,还可针对画面指定区域进行问答。
阿里发布通义千问全新Qwen-VL多模态LLM,超越GPT-4V和谷歌Gemin!

Qwen-VL模型

Qwen不仅仅是一个语言模型,而是一个致力于实现通用人工智能(AGI)的项目,目前包含了大型语言模型(LLM)和大型多模态模型(LMM)。

总结:Qwen项目

Qwen项目是一个多模态AI项目,包括Qwen-Chat、Code-Qwen、Math-Qwen、Qwen-VL和Qwen-Audio。Qwen覆盖了语音、图文、数学、编程等多个生活工作领域,为广大用户提供了广泛的支持和帮助。

视觉理解能力

  • Qwen-VL-Plus具备视觉agent能力和定位能力
  • 让模型学会视觉问答,图像描述,提取图像细节,理解复杂图片如流程图,精准识别各类文字,高效提取图片信息。

其他功能

  • Qwen-VL-Max模型可以结合开源软件SoundOpenFirmware (SOF) 和Reinforcement Learning with Human Feedback (RLHF)方法进行预训练,并提供强大的视觉理解基础和基于视觉的决策支持进一步提升其在实际场景中的应用。

新版本

通义千问视觉理解模型Qwen-VL再次升级,推出Max版本,拥有更强的视觉推理和中文理解能力,性能超越了GPT-4V和Gemini Ultra。

#标签: #AI #阿里 #通义千问

© 版权声明
chatgpt4.0

相关文章

暂无评论

您必须登录才能参与评论!
立即登录
暂无评论...
error: Content is protected !!