介绍
CogAgentCog 是一个面向图形用户界面(GUI)任务的预训练 Agent 模型。通过综合考虑文本识别、视觉基础、GUI基础和GUI理解等数据构建而成。该模型能够在 GUI 元素分类、定位、任务包括 GUI 元素预测测和布局定位、关系解析等任务上表现出色。
更新日志
2023/12/26: CogVLM-SFT-311K 数据集发布
包含超过15万个数据,用于 CogVLM v1.0 的训练。
2023/12/18: 基于 Streamlit 的新 Web UI 推出
提供更好的用户体验,支持与 CogVLM、CogAgent 进行对话。
2023/12/15: CogAgent 正式发布
基于 CogVLM 改进的 GUI 代理的视觉语言模型,支持1120×1120的图像输入。
2023/12/8: cogvlm-grounding-generalist 更新
引入训练期间的图像增强,使模型更加稳健。
2023/12/7: CogVLM 支持4位量化
只需要11GB的GPU内存即可进行推理。
2023/11/20: cogvlm-chat 和 cogvlm-grounding-generalist 更新
统一了 chat 和 VQA 的版本,并在各个数据集上刷新了最先进的水平。
2023/11/20: 在 🤗Huggingface 上发布模型
现在只需要几行代码就可以使用 transformers 进行推理了!
2023/10/27: CogVLM 双语版本上线
欢迎尝试!
2023/10/5: CogVLM-17B 发布
关键词: CogAgent, GUI 任务, 预训练模型, Web UI, CogVLM, 数据集, 更新日志, 模型发布
注意: 确保阅读官方文档以获取最新的详细信息和使用说明。