简体 | 繁体
loading...
新闻频道
  • 首页
  • 新闻
  • 读图
  • 财经
  • 教育
  • 家居
  • 健康
  • 美食
  • 时尚
  • 旅游
  • 影视
  • 博客
  • 群吧
  • 论坛
  • 电台
  • 焦点新闻
  • 图片新闻
  • 视频新闻
  • 生活百态
  • 娱乐新闻
您的位置: 文学城 » 新闻 » 焦点新闻 » 爆火的Manus好用吗?我们给它出了10个难题

爆火的Manus好用吗?我们给它出了10个难题

文章来源: 果壳 于 2025-03-07 21:34:47 - 新闻取自各大新闻媒体,新闻内容并不代表本网立场!
被阅读次数

欢呼又开始了。

“扔炸弹”、“AI双星”、“再革OpenAI的命”......这场狂欢似乎就是要再次复制deepseek式的成功,震耳欲聋的夸耀从昨晚又开始了。新产品叫Manus,官方称这是全球首款通用性Agent。

Manus能做什么?官网上密密麻麻列出了不少demo,从帮你做旅行攻略、股票分析、生成课件、再到审合同……或许你们已经看过了。强大如童话般的功能,也造成了“一码难求”,据《第一财经》报道Manus内测码已经炒到了9万一个。

为了做出真实的体验判断,果壳向开发团队申请到了内测码。以下是我们的真实体验。

(测试的开头不太顺利。有码在手的我们,在注册页面从早上9点卡到了下午1点半。)

先说总结。

Manus是一个运行在虚拟机中的多Agent架构,有规划型Agent负责任务拆解;执行型Agent调用具体工具;监控验证Agent来跟踪任务进度和debug。

说白了,它的理解、工具调用、Computer Use(计算资源调度)能力都要很强,才能实现将复杂任务规划成可执行的具体步骤,并保证处理效率。

对于内测用户,Manus 每天开放了10个任务。当我们给到Manus第11个压力测试——让它为我们“做梗图”时,它告知已经到了最多使用次数。很遗憾,未能测试它的“情商“如何。

在高级模式下,如果我们让它写篇文章,它的处理时长很久,大概30分钟-1小时。在一般模式下,尤其是不需要联网搜索时,例如,写一个HTML页面,需要15分钟。

我们测试了如下功能:分析上市公司股价、设计网页、写研报、填表、甚至游戏“代打”等等。完成得有好有坏,以下是部分回顾。

这些任务让我惊喜

今日最佳我给“世界时钟.html"任务。别说,Manus 写出来的网页还挺符合我的审美,而且“添加时区”,“删除时区”,“下载”等交互都没有问题。

第二个给我惊喜的任务是,我让Manus去“外国版4399”上自己找个游戏玩(现在回想起来觉得好抽象)。Manus成功访问了网站,并在多个游戏类别里,选择了一个赛车游戏。并且成功读取了网页和图片信息,点击了“Play Now”,在游戏里界面里,自行选择了“汽车”,和“竞速模式“。

游戏开始后,由Manus控制的车停在原地,我意识到它可能并不了解游戏机制。我告诉它“请用WASD开车试试”后,车居然......跑起来了(速度就别强求了)。

这个任务里,AI Agent展现出一定程度的可自主操作性,这是能独立完成工作的前提

这些任务“不太行”

当我让Manus给我写一个“浪漫高级的生日祝福网页”时,不仅无法交互——图片,应该满屏闪烁的爱心,音乐都无法点击,就连审美也差了一些,选用了非常正式的“宋体”。当我要求用本世纪的审美重新生成后,我始终访问不到虚拟机中的最新版网页。

按理说,想要做得更美观,是可以通过给提示词让它继续修改。但不止是这个,其他任务下也经常提示负载过高导致服务器出错。所以我们没有执拗于生成一个极其精美的网页,按今天AI能力来说,做个在线抽奖系统啥的应该不成问题。

一些“正经活儿”上,Manus表现也有些低于我的预期。我让它分别做一个“高分子材料性能预测与仿真”研究报告和“碳纤维结构件”科普文章。

我想测试两个能力:它在垂直领域的深度检索和信息处理能力,以及按照特定要求和格式交付的能力。这是区别于AI通用搜索很重要的两点。

这个任务里,它有几点不足:

· 经常过度推理:比如当我只是希望AI研究碳纤维的生产工艺,它会发散性地总结大量市场分析和行业应用信息。

· 信息来源不够:Manus的思考过程是清晰展示出来的,所以能看到AI正在浏览哪些文章、视频资源。但其引用的资源大多来自中文聚合平台、国内期刊,缺少国外期刊和第一手资源。

· 无法按照特定要求和格式交付:比如我希望Manus给我一个可以直接拿去跟老板汇报的PPT,但我只获得了一个markdown格式的中间态。

· 多次需要接管:抓取一些内容平台或付费墙时,需要手动接管登陆账号。AI Agent也解决不了“数据边界”的问题。

最后一类任务,让AI去替代填写表格(财务人估计狠狠点了),是我最期待,也是我认为团队应该优化好的需求之一。

我上传了一张医保发票和保险申请书,让AI“把申请书里原本的金额部分清空,并填入新发票中信息,金额以自付部分为准”。

AI无法真正理解表格结构,以及每一处信息真实代表什么,比如说没有修改日期,或是覆盖了金额和时间之外的信息,把我的身份证号删除了;或是找不到信息该在的位置等等。以及在这个任务中出现了很多次计算资源不足的情况。

也许对于需要AI精准“定位”的任务,我在给提示词时也应该更加精准和“按部就班”些。但这也反映出,AI在发挥想象力、凭空生成的任务上,比在已有框架下修改做得更容易、效果更好。

就好比当你告知一台机器人“拿杯水过来”时,它表现得怎么样,是能通过各种传感器计算出你在它2点钟位置、往前走10步就行呢,还是它不管不顾“冲”到你面前给你个“大比兜”呢?

当能执行得足够精准时,就是前者,就是AI Agent给你做出一篇能拿去忽悠老板的PPT。否则你还是需要拿着AI的“半成品”修修补补。

虽然任务完成得不尽如人意,也不是没有优点。通过看在每个任务下的思考过程,确实可以看到AI Agent的推理思维链,比如当我以小米SU7Ultra引出碳纤维结构件的问题,它的思考过程是从点切入,逐渐展开。即便它总结的备忘录作为半成品,也给到我很大启发。

在很多时候,Manus遇到问题,会告知它在自行修正和处理。以及它有一定的“记忆机制”,会跟你确认要不要按照你的偏好进行后续的生成。

总的来说,这款全新产品还是赋予了大众很多应用上的想象力。尽可能的覆盖到了主流需求,但我想说,AI Agent是一个应该非常个人化的东西,所以更期待它在解放生产力上的进步和表现。

  • 海外省钱快报,掌柜推荐,实现买买买自由!
查看评论(1)
  • 文学城简介
  • 广告服务
  • 联系我们
  • 招聘信息
  • 注册笔名
  • 申请版主
  • 收藏文学城

WENXUECITY.COM does not represent or guarantee the truthfulness, accuracy, or reliability of any of communications posted by other users.

Copyright ©1998-2025 wenxuecity.com All rights reserved. Privacy Statement & Terms of Use & User Privacy Protection Policy

24小时热点排行

中领馆:所有在美中国公民尽快完成"海外公民登记"
中国父子德国风景区湖中溺亡 失踪一周后找到遗体
乌克兰喜收爱国者飞弹,俄议员酸"川普威胁"没人怕
宗庆后的双面人生 到底给宗馥莉留下多少烂摊子?
袁红冰爆中国机要官员带文件叛逃 曝2套俄垮台后方案




24小时讨论排行

川普突然变强硬真正原因,觉得自己被普京羞辱了
川普大赞爱妻"1句话"点醒他,让他看清普丁真面目
川普稳赚不赔的战争生意 拜登就想不出这样的办法
纽约时报:中国第二季度经济保持稳健增长
开除一个被偷拍的女大学生,才是有损国格
特朗普承诺军援,象征乌克兰战事的重要突破
纽约时报:“中国冲击2.0”比上一次严重得多
“同志”的年头要回归了?“共产”还远吗?
全球首例,深圳机器人搭地铁为商家送货
美国大汉学家,为何要写一个“中国荡妇”的故事
关税没引起物价上涨?白宫爱国说法遭打脸 3大原因曝
陈立人杀妻案,前女友提交重要证物并要求不公开!
美众议员:习近平在川普任内不会侵台 著眼50年…
比起三个美国籍孩子,宗家100多亿境外资产更值得关注
欧巴马吁民主党"硬起来",勿因川普重返白宫而沉默
大连工大,你应该保护受害女生,而不是开除
文学城新闻
切换到网页版

爆火的Manus好用吗?我们给它出了10个难题

果壳 2025-03-07 21:34:47

欢呼又开始了。

“扔炸弹”、“AI双星”、“再革OpenAI的命”......这场狂欢似乎就是要再次复制deepseek式的成功,震耳欲聋的夸耀从昨晚又开始了。新产品叫Manus,官方称这是全球首款通用性Agent。

Manus能做什么?官网上密密麻麻列出了不少demo,从帮你做旅行攻略、股票分析、生成课件、再到审合同……或许你们已经看过了。强大如童话般的功能,也造成了“一码难求”,据《第一财经》报道Manus内测码已经炒到了9万一个。

为了做出真实的体验判断,果壳向开发团队申请到了内测码。以下是我们的真实体验。

(测试的开头不太顺利。有码在手的我们,在注册页面从早上9点卡到了下午1点半。)

先说总结。

Manus是一个运行在虚拟机中的多Agent架构,有规划型Agent负责任务拆解;执行型Agent调用具体工具;监控验证Agent来跟踪任务进度和debug。

说白了,它的理解、工具调用、Computer Use(计算资源调度)能力都要很强,才能实现将复杂任务规划成可执行的具体步骤,并保证处理效率。

对于内测用户,Manus 每天开放了10个任务。当我们给到Manus第11个压力测试——让它为我们“做梗图”时,它告知已经到了最多使用次数。很遗憾,未能测试它的“情商“如何。

在高级模式下,如果我们让它写篇文章,它的处理时长很久,大概30分钟-1小时。在一般模式下,尤其是不需要联网搜索时,例如,写一个HTML页面,需要15分钟。

我们测试了如下功能:分析上市公司股价、设计网页、写研报、填表、甚至游戏“代打”等等。完成得有好有坏,以下是部分回顾。

这些任务让我惊喜

今日最佳我给“世界时钟.html"任务。别说,Manus 写出来的网页还挺符合我的审美,而且“添加时区”,“删除时区”,“下载”等交互都没有问题。

第二个给我惊喜的任务是,我让Manus去“外国版4399”上自己找个游戏玩(现在回想起来觉得好抽象)。Manus成功访问了网站,并在多个游戏类别里,选择了一个赛车游戏。并且成功读取了网页和图片信息,点击了“Play Now”,在游戏里界面里,自行选择了“汽车”,和“竞速模式“。

游戏开始后,由Manus控制的车停在原地,我意识到它可能并不了解游戏机制。我告诉它“请用WASD开车试试”后,车居然......跑起来了(速度就别强求了)。

这个任务里,AI Agent展现出一定程度的可自主操作性,这是能独立完成工作的前提

这些任务“不太行”

当我让Manus给我写一个“浪漫高级的生日祝福网页”时,不仅无法交互——图片,应该满屏闪烁的爱心,音乐都无法点击,就连审美也差了一些,选用了非常正式的“宋体”。当我要求用本世纪的审美重新生成后,我始终访问不到虚拟机中的最新版网页。

按理说,想要做得更美观,是可以通过给提示词让它继续修改。但不止是这个,其他任务下也经常提示负载过高导致服务器出错。所以我们没有执拗于生成一个极其精美的网页,按今天AI能力来说,做个在线抽奖系统啥的应该不成问题。

一些“正经活儿”上,Manus表现也有些低于我的预期。我让它分别做一个“高分子材料性能预测与仿真”研究报告和“碳纤维结构件”科普文章。

我想测试两个能力:它在垂直领域的深度检索和信息处理能力,以及按照特定要求和格式交付的能力。这是区别于AI通用搜索很重要的两点。

这个任务里,它有几点不足:

· 经常过度推理:比如当我只是希望AI研究碳纤维的生产工艺,它会发散性地总结大量市场分析和行业应用信息。

· 信息来源不够:Manus的思考过程是清晰展示出来的,所以能看到AI正在浏览哪些文章、视频资源。但其引用的资源大多来自中文聚合平台、国内期刊,缺少国外期刊和第一手资源。

· 无法按照特定要求和格式交付:比如我希望Manus给我一个可以直接拿去跟老板汇报的PPT,但我只获得了一个markdown格式的中间态。

· 多次需要接管:抓取一些内容平台或付费墙时,需要手动接管登陆账号。AI Agent也解决不了“数据边界”的问题。

最后一类任务,让AI去替代填写表格(财务人估计狠狠点了),是我最期待,也是我认为团队应该优化好的需求之一。

我上传了一张医保发票和保险申请书,让AI“把申请书里原本的金额部分清空,并填入新发票中信息,金额以自付部分为准”。

AI无法真正理解表格结构,以及每一处信息真实代表什么,比如说没有修改日期,或是覆盖了金额和时间之外的信息,把我的身份证号删除了;或是找不到信息该在的位置等等。以及在这个任务中出现了很多次计算资源不足的情况。

也许对于需要AI精准“定位”的任务,我在给提示词时也应该更加精准和“按部就班”些。但这也反映出,AI在发挥想象力、凭空生成的任务上,比在已有框架下修改做得更容易、效果更好。

就好比当你告知一台机器人“拿杯水过来”时,它表现得怎么样,是能通过各种传感器计算出你在它2点钟位置、往前走10步就行呢,还是它不管不顾“冲”到你面前给你个“大比兜”呢?

当能执行得足够精准时,就是前者,就是AI Agent给你做出一篇能拿去忽悠老板的PPT。否则你还是需要拿着AI的“半成品”修修补补。

虽然任务完成得不尽如人意,也不是没有优点。通过看在每个任务下的思考过程,确实可以看到AI Agent的推理思维链,比如当我以小米SU7Ultra引出碳纤维结构件的问题,它的思考过程是从点切入,逐渐展开。即便它总结的备忘录作为半成品,也给到我很大启发。

在很多时候,Manus遇到问题,会告知它在自行修正和处理。以及它有一定的“记忆机制”,会跟你确认要不要按照你的偏好进行后续的生成。

总的来说,这款全新产品还是赋予了大众很多应用上的想象力。尽可能的覆盖到了主流需求,但我想说,AI Agent是一个应该非常个人化的东西,所以更期待它在解放生产力上的进步和表现。