Manus Agent评测:挑战OpenAI?通用Agent新选择?

AI前沿2周前发布 yizz
3,630 0 0
广告也精彩

Manus Agent 深度评测:通用Agent真的抛弃OpenAI了吗?

引言:Manus Agent横空出世

上线12小时,Manus从第一个通用Agent变成了第一款自媒体比技术从业者先发现和评测的AI产品,评论好坏掺半。最明显的两个观点是效果虚假,没有技术报告,很多好的Agent已经能做到这一点和如何那么厉害的话,为什么英文媒体们没有报道。后者应该很难辨正,但是前者我觉得还是可以燃烧几个 GPT Pro账号,来真金白银试试看 Manus 的效果如何。所以就有了这篇文章,我将通过一系列实际测试,来评估 Manus Agent 的真实能力,并探讨其是否已经超越了 OpenAI 的通用Agent。

测试准备:真金白银的验证

为了更客观地评估 Manus 的能力,我准备了中文和英文两组问题,其中中文问题主要由 @赛博禅心 提供,英文问题则来自 Manus 官方提供的 Use Cases。同时,为了对比,我将使用 OpenAI 的 o1 Deep Research 运行相同的输入。由于英文 Use Case 无法确定实际成功率,我将重复运行三次

中文问题测试

问题一:AI行业编年史

问题:

整理一份逐月编年史,记录从2022年到现在,AI行业每个月都发生了哪些事情。整理完之后,再从现在的视角回顾下这段历史。

Manus表现:

Manus 在执行过程中,会将每个季度做成代办,并将搜集到的信息写入 event.md 文件,并通过 todo.md 文件记录进度。这种使用 Markdown 作为进度记录的方式,类似于在 Cursor 中的使用。多 Agent 系统通常会有一个 Plan Agent 负责进程管理,Manus 在这方面有自己的理解。但很可惜,开局不利,卡在了某乎的扫码界面。

o1 Deep Research表现:

o1 Deep Research 解决此类搜索问题相对简单,虽然将当前时间误判为2024年,但每个月的关键信息基本没有出现幻觉。

总结:

o1 Deep Research 在信息搜索方面表现更稳定。

问题二:爆款公众号文章

问题:

你是一个严肃媒体,写一篇爆款的公众号文章,要有百万阅读的潜质,讲这个产品,图文并茂的 https://manus.im/ 。

Manus表现:

Manus 生成的文章更像是一行行短的宣传语,没有成功配图,不太能算合格的公众号文章。例如:“无论什么主题,Manus都能帮你深入多渠道搜集信息,给你提供既全面又有见解的研究报告。市场分析、竞品研究、学术文献综述,它都能胜任。”

o1 Deep Research表现:

o1 Deep Research 生成的文章单个段落表达的语义更加完整,而且开头和中间都有配图,完成度更高。例如:“Pepper机器人是一种实体AI助手形象,体现了AI助手在现实场景中的应用;而Manus以纯软件形式,实现了类似助理职责的全面覆盖。”

总结:

o1 Deep Research 在文章的完整度和表达方面更胜一筹。

问题三:DOOM网页版游戏

问题:

帮我写一个DOOM的网页版游戏,高保真,我可以用鼠标和键盘来玩。

Manus表现:

Manus 成功将游戏部署到可以直接访问的域名,虽然 UI 比较简单,但是地图、操控台、关卡信息等都齐全了,视角移动和上下左右也是好用的。

o1 Deep Research表现:

o1 Deep Research 在生成游戏方面表现不佳,生成的代码存在问题,且后续对话无法修复。

总结:

Manus 在代码生成和部署方面表现出色。这道题应该是 Manus 的舒适区了吧,它背后有 Qwen 和 Claude 的支持

问题四:小米SU7 PPT

问题:

帮我做一下介绍小米 Su7 十页的 PPT。

Manus表现:

Manus 生成的是 html 版本的 PPT,在有限的篇幅里面准确表达了 su7 的热点,整体配色跟小米很配,有3处字体排版错误。

o1 Deep Research表现:

o1 Deep Research 用配图和排版文字来做 PPT,虽然图找的挺准的,还找了特斯拉来对比,但是整体效果不佳。

总结:

Manus 在 PPT 生成方面表现更专业。

问题五:大模型入门教程

问题:

我是大学一年级的理科生,刚学习了微积分和线性代数,具备一点点python基础。请帮我写一本《大模型:从入门到精通》的书,要确保内容详实,有公式、有代码、有图示,章节清晰,内容完整,让我这种小白人士能够轻松学习。

Manus表现:

Manus 真的现学的系统大模型基础知识,写到第五章,给出的代码案例相当详细。

o1 Deep Research表现:

o1 Deep Research 一共写了7章节,可以说是有模有样的,有公式、图、代码和案例,甚至还可以加上测试题。

总结:

Manus 和 o1 Deep Research 在此问题上表现各有千秋,Manus 代码更详细,o1 Deep Research 章节更完整。

英文问题测试

问题六:日本旅行规划

问题:

我需要一份4月15日至23日的7天日本行程,从西雅图出发,预算为2500至5000美元,我和我的未婚妻一起。我们喜欢历史遗迹、隐藏的宝藏和日本文化(剑道、茶道、禅修)。我们想看奈良的鹿,并徒步探索城市。我计划在这趟旅行中求婚,需要推荐一个特别的地点。请提供详细的行程和一本简单的HTML旅行手册,包含地图、景点描述、基本日语短语和旅行小贴士,以便我们在整个旅程中参考。

Manus表现:

Manus 给出的流程相对简单。

o1 Deep Research表现:

o1 Deep Research 细化到预算、出行方式、酒店都推荐上了。

总结:

o1 Deep Research 在旅行规划方面更细致。

问题七:音效设计

问题:

帮我设计一个音效,混合鸟鸣和蒸汽的声音,持续时间大约3秒。

Manus表现:

Manus 的思路很清晰,上来就先安装常见的音频处理环境(ffmpeg 和 sox),中间安装失败了改用 Python,接着去网上下载了鸟鸣声样本和蒸汽声音,并完成裁剪和合成。可惜的是鸟鸣声不是很明显,我听了很多遍,音频的中间部分确实是有鸟叫。

o1 Deep Research表现:

o1 Deep Research 计划用 Python 实现,但是在保存成文件这一步反复失败。

总结:

Manus 在音效设计和音频处理方面更胜一筹。

问题八:图标设计

问题:

这是我们的公司网站 https://techcrunch.com。基于其设计风格和视觉语言,请创建一套我们可以在 PowerPoint 演示文稿中使用的图标。这些图标应丰富、吸引人,并保持与我们网站一致的设计语言。

Manus表现:

Manus 抓住了网站的绿色主色调,并专门写了一套准则:亮绿色( 或类似):用于主背景和品牌标识;黑色:用于导航栏、文本和内容区域;白色:用于深色背景上的文本和标志元素;强调色:用于类别标签和按钮的各种颜色。

o1 Deep Research表现:

o1 Deep Research 生成的图标有明显的 DALLE 味道,但没有进行切割,也没有不同尺寸的大小。

总结:

Manus 在图标设计方面更专业,能抓住网站的风格和视觉语言。

问题九:Kaggle房价预测竞赛

问题:

参加 Kaggle 房价预测竞赛。创建用于数据预处理和模型构建的 Python 脚本,然后生成具有竞争性得分的提交文件。

Manus表现:

Manus 完整经历了几次模型的迭代优化,还能根据 Kaggle 网上的要求输出对应的提交文件。

o1 Deep Research表现:

o1 Deep Research 登陆不了 Kaggle,就选择绕开限制,在 Github 上使用对应的数据,生成了具体的代码脚本之后,没能把具体的结果数据提供出来。

总结:

Manus 在 Kaggle 竞赛方面表现出色,能够完成模型的迭代优化和提交文件的生成。

问题十:物理演示动画

问题:

我是一个中学物理老师,正在准备教授动量守恒定律。你能制作一系列清晰准确的演示动画,并将它们整理成一个简单的演示html吗?

Manus表现:

Manus 很擅长在有限的环境完成代码编写和测试的,能够用 html 搭建演示动画。

o1 Deep Research表现:

o1 Deep Research 只是写了一份教材,代码也没有,而且用文字来模拟动画。

总结:

Manus 在演示动画制作方面表现突出。

结论:通用Agent的未来?

从上述测试结果来看,Manus Agent 在某些特定领域,如代码生成、PPT 制作、音效设计、动画制作等方面,表现出了超越 OpenAI 的 o1 Deep Research 的能力。但在信息搜索、文本编写等方面,两者差距不大。

Manus 会是纯套壳没有自己的优化吗?我觉得是否定的,因为有一些细节,目前来说 Claude 和 o1 的表现并没有它好。那它是不是就是一个代码写得好的Agent呢?我觉得也是否定的,它在信息搜索、视觉设计、文本编写里面很接近 o1 Deep Research。

Manus 是正在接近通用的 Agent,现阶段的它可能还有些不足。但无论如何,它都给我们提供了一个新的方向,这已经足够了。

鲁迅风格的感悟

我认为:Manus 固然有其可取之处,然亦不可盲目迷信。须知,技术之进步,非一蹴而就之事,仍需脚踏实地,方能有所突破。切不可被一时之表象所迷惑,而忽略了其背后之艰辛与付出。,,,

© 版权声明
chatgpt4.0

相关文章

error: Content is protected !!