阿里发布通义千问全新Qwen-VL多模态LLM，超越GPT-4V和谷歌Gemin！

概述

2023年4月7日，阿里云首次开启了通义千问(CommonsenseQA)的旅程，四个月前，阿里首次发布Qwen-7B大型语言模型(LLM)，正式开启了开源之旅。此次我们将详细介绍Qwen开源家族，在此基础上更全面的展示我们的当前工作和未来目标。

内测地址回复【阿里】即可体验max版本和plus版本。

模型特性

Qwen-VL-Max和Qwen-VL-Plus可以理解流程图等复杂形式图片，可以分析复杂图标，实现看图做题、看图作文、看图写代码等任务。
具备视觉定位能力，还可针对画面指定区域进行问答。

Qwen-VL模型

Qwen不仅仅是一个语言模型，而是一个致力于实现通用人工智能(AGI)的项目，目前包含了大型语言模型（LLM）和大型多模态模型（LMM）。

总结：Qwen项目

Qwen项目是一个多模态AI项目，包括Qwen-Chat、Code-Qwen、Math-Qwen、Qwen-VL和Qwen-Audio。Qwen覆盖了语音、图文、数学、编程等多个生活工作领域，为广大用户提供了广泛的支持和帮助。

视觉理解能力

Qwen-VL-Plus具备视觉agent能力和定位能力
让模型学会视觉问答，图像描述，提取图像细节，理解复杂图片如流程图，精准识别各类文字,高效提取图片信息。

其他功能

Qwen-VL-Max模型可以结合开源软件SoundOpenFirmware (SOF) 和Reinforcement Learning with Human Feedback (RLHF)方法进行预训练，并提供强大的视觉理解基础和基于视觉的决策支持进一步提升其在实际场景中的应用。

新版本

通义千问视觉理解模型Qwen-VL再次升级，推出Max版本，拥有更强的视觉推理和中文理解能力，性能超越了GPT-4V和Gemini Ultra。

#标签：

文章版权归作者所有，未经允许请勿转载。

提升工作效率的秘诀：掌握 Skills 聚合站与 Anthropic 官方仓库的实用工具

AI前沿 # Skills # 创意设计 # 工作效率

6个月前

35,4050

爆款标题生成器 | 两大顶流AI图像模型巅峰对决：Seedream 4.0 vs. Nano Banana，哪个更胜一筹？

AI前沿 # AI图像创作 # AI文生图 # Banana

10个月前

35,5790

OceanBase SeekDB：AI原生｜多模态混合搜索｜数据库新选择

AI前沿 # AI原生数据库 # Dify # LangChain

7个月前

16,0000

Trae IDE重磅更新：Deepseek V3加持，赋能AI编程，效率飙升！

AI前言 # AI # AI编程 # AI编程IDE

1年前

27,5540

阿里发布通义千问全新Qwen-VL多模态LLM，超越GPT-4V和谷歌Gemin！

概述

模型特性

Qwen-VL模型

总结：Qwen项目

视觉理解能力

其他功能

新版本

OpenAI发布GPT-4 Turbo预览版，解决懒散行为问题并降价多款模型

GPT4最新版发布！GPTs 新增Mention功能，GPT5即将惊艳登场！

相关文章

提升工作效率的秘诀：掌握 Skills 聚合站与 Anthropic 官方仓库的实用工具

爆款标题生成器 | 两大顶流AI图像模型巅峰对决：Seedream 4.0 vs. Nano Banana，哪个更胜一筹？

OceanBase SeekDB：AI原生｜多模态混合搜索｜数据库新选择

Trae IDE重磅更新：Deepseek V3加持，赋能AI编程，效率飙升！

热门文章

智能体

阿里发布通义千问全新Qwen-VL多模态LLM，超越GPT-4V和谷歌Gemin！

概述

模型特性

Qwen-VL模型

总结：Qwen项目

视觉理解能力

其他功能

新版本

OpenAI发布GPT-4 Turbo预览版，解决懒散行为问题并降价多款模型

GPT4最新版发布！GPTs 新增Mention功能，GPT5即将惊艳登场！

相关文章

提升工作效率的秘诀：掌握 Skills 聚合站与 Anthropic 官方仓库的实用工具

爆款标题生成器 | 两大顶流AI图像模型巅峰对决：Seedream 4.0 vs. Nano Banana，哪个更胜一筹？

OceanBase SeekDB：AI原生｜多模态混合搜索｜数据库新选择

Trae IDE重磅更新：Deepseek V3加持，赋能AI编程，效率飙升！

标签云

热门文章

智能体