当前位置: 首页 > news >正文

Hermes桌面端来了!我捏了一个比我更会打工的AI同事

昨天,Hermes Agent 桌面端上线了。

看到这个消息的时候,我第一反应是:Hermes 真是把饭喂到嘴边了。

以前你想跑 Hermes,多少还得有点心理建设。

装环境、配服务、连远程、看日志、写配置。

懂的人觉得不难。

但普通用户看到这几步,基本已经开始犯困了。

桌面端的推出,真的是给我这种懒得开终端的人的福利了!

还有一个消息:这两天 MiniMax 把 M3 也放出来了。

关键词很猛:Coding Frontier、1M 上下文、原生多模态。

也就是现在前沿模型最重要的三件套,一次性集齐了。

另外 Hermes 框架 Nous Research 的联合创始人,还公开在 X 上给 M3 背书。

那问题就来了:

如果把 Hermes 桌面端接上 MiniMax M3,它到底能变成什么?

说测就测,开干!

原则就一个:它到底能不能替我把活儿干好?

所以这次我没有只看跑分,而是按真实工作流测了几类任务。

/为什么是 MiniMax M3/

Coding Frontier、1M 上下文、原生多模态。

这三个词分开看,大家可能都已经听麻了。

会写代码,不稀奇。

上下文长,也不稀奇。

能看图看视频,现在也不稀奇。

但把这三件事放在同一个模型里,而且还能开源,这就不太一样了。

因为真实 Agent 任务从来不是单线程的。

你要它做一个网站,它得看文档、看图片、看视频、写代码、调样式、查报错、再部署。

你要它分析一个展会地图,它得识别 Logo、搜索公司资料、整理上下游、再做成报告。

你要它复现一篇论文,它得看公式、看图表、跑代码、读日志、修错误,十几个小时里还不能忘了自己前面干过什么。

这类任务不是“问答题”。

这是“项目制”。

所以 M3 真正值得测的地方,不是单轮回答有多聪明,而是它放进 Hermes 这种 Agent 框架后,能不能跑出一条完整交付链。

/给贾克斯做一个官网/

我故意设计得很像真实甲方需求。

不是那种“请用 React 写一个科技感官网”的干净 Prompt。

真实世界没有这么干净。

真实世界是这样的:一个文件夹里有公司介绍 PDF,有几张产品图,有一段宣传视频,有一堆 Logo,还有几句写得半生不熟的卖点文案。

然后老板说:“你帮我整成一个官网首页吧,好看点。”

于是,我也开始压榨我的AI员工:帮我做一个贾克斯的平行世界官网。

我以为等待我的是大面积的抽卡,没想到,一遍过。大家直接看吧:

效果惊艳到让我都有点震惊。

这个任务考验的不是单纯写 HTML。

它真正考的是:模型能不能同时理解多种素材,并把它们组织成一个完整页面。

M3 的表现比较符合我对“Agent 模型”的期待。

它会先扫素材,再自己判断哪些图片适合做首屏,哪些视频适合放到产品介绍,哪些文案适合拆成卖点。

中间如果遇到路径问题、素材加载失败、页面样式错位,它也不会立刻停下来问你怎么办,而是会继续查问题、改路径、重跑。

这点很重要。

因为真实工作里,一个 AI 如果每走两步就来问你一次,那它就不是同事,是个大型弹窗。

这就是我觉得 M3 比 M2 系列体感提升明显的地方。

它不只是回答更聪明,而是更能“把事做完”。

/让它看 AI 教程,然后直接做 PPT/

之前,我看了一个做海外电商的口播带货视频,觉得很有用,我想把它用Claude code复现一下。

Prompt如下:请认真观看这个电商直播视频,把视频里的操作步骤拆成一份可执行SOP

由于我的Hermes之前配置的模型是Claude Opus 4.6,对于这个任务,在让M3跑之前,我让Opus 4.6也跑了一遍,前面的归纳部分做的都非常准确,但是在最后,给我来了这么一句:

我直接Emo…

而且对于Claude这种 Coding 非常强大但没有图像支持的模型,做PPT、做前端还是差了些

于是我把模型换成M3,非常丝滑!

可以看到,它在根据结合图片、口播等梳理内容

随便截两页PPT,大家先看一下效果

接下来我来讲一下原因:

很多模型所谓的视频理解,其实是“先转文字,再理解文字”。

如果视频里有语音,这么做勉强可以。

但如果视频重点在画面操作,比如 PPT 教程、剪辑教程、设计教程、软件教学,单靠字幕就不够了。

因为关键步骤往往藏在画面里:

鼠标点了哪里;

图层顺序怎么调;

按钮在哪个菜单里;

动画时间轴怎么设置;

前后画面发生了什么变化。

这时候,原生多模态就有用。

这个任务里,M3 之所以可以吊打Claude(除去Claude不是完全体的因素),就是因为原生多模态。

它不只是总结“这是一个 PPT 文字遮罩教程”,而是会把操作动作拆出来。

这里我再讲几个延伸:

因为我这个只是一个 Demo,但是PPT的效果大家已经可以看到非常好了。

原生多模态对内容创作者、学生、研究员、知识博主都很有用。

因为以后你不只是“看视频”。

你可以把视频变成:教程、网页、卡片、题库、PPT、知识库、甚至一个 Skill。

结合Hermes本身的记忆能力和Skill,任何一个别人写的高质量教程都能变成自己的工作流。

这才是桌面 Agent 真正让人兴奋的地方。

/让 MiniMax M3 感受一次被导师支配的恐惧/

这里给M3上一下强度——让它复现一篇论文

不是让它总结论文,也不是让它写个读后感。而是让它独立复现。

大家应该都记得大学时候导师让你读论文时候的痛苦吧。论文读懂了,但实验设计出来结果跑不对,始终和论文作者的结果对不上。现在让AI体验一遍

我的Prompt如下:

请复现论文《LoRA: Low-Rank Adaptation of Large Language Models》的核心思想,并做成一个可交互的教学实验网页。

结果不对,它会自己调参。

最后不仅跑通核心实验,还复现出了论文里讨论的关键现象。

过程有点长,我就不放了,直接呈现结果:

有实验设置、有结果:

而且以上代码是可以直接跑的。

最后,结果用图表呈现:

这轮测下来,我最大的感受是:M3 的长上下文不是摆设。

很多模型也能读论文,但读着读着就开始丢细节。

前面刚定义过的变量,后面就忘了。

附录里的实验设置,正文里引用的时候对不上。

M3 在这个任务里比较稳的地方,是它能把论文、公式、实现和图表串起来。

/实现一个真正的前后端项目/

最后一个任务,其实这个也是最难的任务。

使用M3创建一个完整的产品,有前端、有后端、有数据库,全部用M3完成,过程与前面类似,但是更复杂,这里直接展示效果。

打开之后,可浏览、可点击、可搜索。

Vibe coding过的人都应该经历过:AI写出来的代码没问题,但跑起来总是频繁报错的崩溃瞬间。

我这次的体感是:M3 在 Hermes 里做这个项目,最有价值的是它把“可运行”当成终点,而不是把“写完代码”当成终点。从思维脸链里可以看到,遇到报错它会去追到根因、改完再跑;

在写代码的过程中也能够看到它推翻自己之前的结论重新溯源,遇到数据库 schema 不匹配就会补迁移。

对我来说,这就是从“会写代码的模型”,走向“能交付产品的同事”的分水岭。

/让 Hermes 把这次经验变成 Skill/

Hermes 真正有意思的地方,不是它能不能调用 M3。

而是它能不能把这几次任务里的经验留下来。

所以我做了最后一轮测试:同样的任务,如果丢给一个普通 Agent,下次它大概率还是从零开始。

但 Hermes 会把这次踩过的坑、走通的路、可复用的方法,变成一个 Skill。

以后再让它做类似任务,它不是重新推理。

它是调经验。

这就是“越用越聪明”的真实含义。

不是模型参数偷偷变了。

而是工作经验在积累。

/写在最后/

过去半年,Agent 圈最热闹的故事,是 OpenClaw 和 Hermes 的路线之争。

OpenClaw 代表广度:平台多,Skill 多,接入多,哪里都能用。

Hermes 代表深度:记住你,学习你,复盘你,越用越懂你。

以前这个区别,很多人感受不到。

因为 Hermes 更像一个需要折腾的开发者工具。

但桌面端上线之后,这件事开始变了。

当一个会长记性的 Agent,有了一个普通人也能打开的桌面入口;

当一个具备 1M 上下文、原生多模态、强 Coding 能力的开源模型,接进这个长期工作流;

很多事情就开始不一样了。

以前我们测试模型,问的是:

它能不能回答这个问题?

后来我们测试 Agent,问的是:

它能不能完成这个任务?

但 Hermes + M3 的这次尝试让我开始问另一个问题:它能不能在完成任务之后,变得更会完成下一次任务?

这是一个更重要的问题。

因为真正的员工不是一次性工具。

真正的搭档,也不是每次见面都要重新自我介绍。

它应该记得你怎么工作。

知道你在意什么。

理解你上次为什么改。

下次遇到类似问题时,少走一点弯路。

这才是 Agent 真正让人上头的地方。

功能可以追平。

模型可以换代。

界面可以复制。

但一个越用越懂你的工作系统,一旦跑起来,就很难回去了。

Hermes 桌面端上线,是 Agent 从命令行走向日常工作台的一步。

MiniMax M3 则证明,开源模型已经开始有能力撑住这些复杂任务。

一个提供长期记忆。

一个提供前沿执行力。

这俩放在一起,我愿意把它叫作:

普通人第一次真正摸到“超级员工”的雏形。

学AI大模型的正确顺序,千万不要搞错了

🤔2026年AI风口已来!各行各业的AI渗透肉眼可见,超多公司要么转型做AI相关产品,要么高薪挖AI技术人才,机遇直接摆在眼前!

有往AI方向发展,或者本身有后端编程基础的朋友,直接冲AI大模型应用开发转岗超合适!

就算暂时不打算转岗,了解大模型、RAG、Prompt、Agent这些热门概念,能上手做简单项目,也绝对是求职加分王🔋

📝给大家整理了超全最新的AI大模型应用开发学习清单和资料,手把手帮你快速入门!👇👇

学习路线:

✅大模型基础认知—大模型核心原理、发展历程、主流模型(GPT、文心一言等)特点解析
✅核心技术模块—RAG检索增强生成、Prompt工程实战、Agent智能体开发逻辑
✅开发基础能力—Python进阶、API接口调用、大模型开发框架(LangChain等)实操
✅应用场景开发—智能问答系统、企业知识库、AIGC内容生成工具、行业定制化大模型应用
✅项目落地流程—需求拆解、技术选型、模型调优、测试上线、运维迭代
✅面试求职冲刺—岗位JD解析、简历AI项目包装、高频面试题汇总、模拟面经

以上6大模块,看似清晰好上手,实则每个部分都有扎实的核心内容需要吃透!

我把大模型的学习全流程已经整理📚好了!抓住AI时代风口,轻松解锁职业新可能,希望大家都能把握机遇,实现薪资/职业跃迁~

这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费

http://www.cnnetsun.cn/news/2797104.html

相关文章:

  • 从零开始构建企业级元数据平台:OpenMetadata Docker部署实战指南
  • 【PC】SPlayer-高颜值免费音乐软件-畅听全网
  • kanzi中动画的使用--让属性动起来
  • 遗传算法三大算子深度解析:选择、交叉与变异的协同机制
  • 运算放大器仿真与实战:8个Proteus模型带你从理论到设计
  • 工程师成长闭环:从理论到实践的“读行阅指悟”五步法
  • Atom编辑器简体中文汉化:告别英文困扰,提升开发效率
  • 技术型小企业如何突破稳态瓶颈:从项目驱动到产品化与组织建设
  • Scribd电子书下载终极指南:如何快速打造个人离线图书馆
  • 白光干涉仪(White Light Interferometer, WLI)高精度表征下超薄薄膜(Ultra-thin Film)表面瑕疵与工艺误差关联性研究
  • MLIR专题1:创建方言流程(使用ODS)
  • 9大网盘直链下载助手:免费获取真实下载链接的终极指南
  • 200W QPS超高并发压测方案全解析
  • 英雄联盟终极辅助工具:League Akari 完整使用指南
  • 实战vue3项目,用快马ai生成团队统一的vscode开发环境配置包
  • sqlalchemy 原生sql判断条件是否为空,为空则跳过
  • 【声纳技术手册】 6 统计阵列信号处理与自适应波束形成:左右舷模糊分辨
  • Beyond Compare 5密钥生成架构解析:深度解析企业级授权系统设计与实践指南
  • 录播姬:如何用开源工具轻松录制mikufans直播的终极指南
  • PPTAgent:革命性AI智能演示文稿生成的终极解决方案
  • 2026会计人员学数据分析对个人能力的提升
  • 微信小程序水果电商源码,带登录、支付、用户中心和云函数全套功能
  • 2026年6月公考培训机构数据量化对比:6家机构督学效果与完课率分析
  • MATLAB版NURBS曲线实时绘图工具:控制点拖拽+参数调节+图形即时反馈
  • 如何在Obsidian中无缝管理电子表格?终极Excel插件完整指南
  • PrusaSlicer深度解析:3D打印切片算法与G-code生成实战手册
  • 重磅!北京市科委、中关村管委会发布众智 FlagOS 加速计划储备课题征集通知
  • 利用thisisunsafe指令,在快马平台快速构建和测试HTTPS通信原型
  • FModel终极指南:5步轻松提取虚幻引擎游戏资源的完整教程
  • Go 高并发内存分配优化:基于 sync.Pool 的对象复用与 GC 停顿调优深度实战