Next-GPT
NExT-GPT为多模态大型语言模...
CogAgentCog 是一个面向图形用户界面(GUI)任务的预训练 Agent 模型。通过综合考虑文本识别、视觉基础、GUI基础和GUI理解等数据构建而成。该模型能够在 GUI 元素分类、定位、任务包括 GUI 元素预测测和布局定位、关系解析等任务上表现出色。
包含超过15万个数据,用于 CogVLM v1.0 的训练。
提供更好的用户体验,支持与 CogVLM、CogAgent 进行对话。
基于 CogVLM 改进的 GUI 代理的视觉语言模型,支持1120×1120的图像输入。
引入训练期间的图像增强,使模型更加稳健。
只需要11GB的GPU内存即可进行推理。
统一了 chat 和 VQA 的版本,并在各个数据集上刷新了最先进的水平。
现在只需要几行代码就可以使用 transformers 进行推理了!
欢迎尝试!
关键词: CogAgent, GUI 任务, 预训练模型, Web UI, CogVLM, 数据集, 更新日志, 模型发布
注意: 确保阅读官方文档以获取最新的详细信息和使用说明。






