Hermes桌面端来了!我捏了一个比我更会打工的AI同事
昨天,Hermes Agent 桌面端上线了。
看到这个消息的时候,我第一反应是:Hermes 真是把饭喂到嘴边了。
以前你想跑 Hermes,多少还得有点心理建设。
装环境、配服务、连远程、看日志、写配置。
懂的人觉得不难。
但普通用户看到这几步,基本已经开始犯困了。
桌面端的推出,真的是给我这种懒得开终端的人的福利了!
还有一个消息:这两天 MiniMax 把 M3 也放出来了。
关键词很猛:Coding Frontier、1M 上下文、原生多模态。
也就是现在前沿模型最重要的三件套,一次性集齐了。
另外 Hermes 框架 Nous Research 的联合创始人,还公开在 X 上给 M3 背书。
那问题就来了:
如果把 Hermes 桌面端接上 MiniMax M3,它到底能变成什么?
说测就测,开干!
原则就一个:它到底能不能替我把活儿干好?
所以这次我没有只看跑分,而是按真实工作流测了几类任务。
/为什么是 MiniMax M3/
Coding Frontier、1M 上下文、原生多模态。
这三个词分开看,大家可能都已经听麻了。
会写代码,不稀奇。
上下文长,也不稀奇。
能看图看视频,现在也不稀奇。
但把这三件事放在同一个模型里,而且还能开源,这就不太一样了。
因为真实 Agent 任务从来不是单线程的。
你要它做一个网站,它得看文档、看图片、看视频、写代码、调样式、查报错、再部署。
你要它分析一个展会地图,它得识别 Logo、搜索公司资料、整理上下游、再做成报告。
你要它复现一篇论文,它得看公式、看图表、跑代码、读日志、修错误,十几个小时里还不能忘了自己前面干过什么。
这类任务不是“问答题”。
这是“项目制”。
所以 M3 真正值得测的地方,不是单轮回答有多聪明,而是它放进 Hermes 这种 Agent 框架后,能不能跑出一条完整交付链。
/给贾克斯做一个官网/
我故意设计得很像真实甲方需求。
不是那种“请用 React 写一个科技感官网”的干净 Prompt。
真实世界没有这么干净。
真实世界是这样的:一个文件夹里有公司介绍 PDF,有几张产品图,有一段宣传视频,有一堆 Logo,还有几句写得半生不熟的卖点文案。
然后老板说:“你帮我整成一个官网首页吧,好看点。”
于是,我也开始压榨我的AI员工:帮我做一个贾克斯的平行世界官网。
我以为等待我的是大面积的抽卡,没想到,一遍过。大家直接看吧:
效果惊艳到让我都有点震惊。
这个任务考验的不是单纯写 HTML。
它真正考的是:模型能不能同时理解多种素材,并把它们组织成一个完整页面。
M3 的表现比较符合我对“Agent 模型”的期待。
它会先扫素材,再自己判断哪些图片适合做首屏,哪些视频适合放到产品介绍,哪些文案适合拆成卖点。
中间如果遇到路径问题、素材加载失败、页面样式错位,它也不会立刻停下来问你怎么办,而是会继续查问题、改路径、重跑。
这点很重要。
因为真实工作里,一个 AI 如果每走两步就来问你一次,那它就不是同事,是个大型弹窗。
这就是我觉得 M3 比 M2 系列体感提升明显的地方。
它不只是回答更聪明,而是更能“把事做完”。
/让它看 AI 教程,然后直接做 PPT/
之前,我看了一个做海外电商的口播带货视频,觉得很有用,我想把它用Claude code复现一下。
Prompt如下:请认真观看这个电商直播视频,把视频里的操作步骤拆成一份可执行SOP
由于我的Hermes之前配置的模型是Claude Opus 4.6,对于这个任务,在让M3跑之前,我让Opus 4.6也跑了一遍,前面的归纳部分做的都非常准确,但是在最后,给我来了这么一句:
我直接Emo…
而且对于Claude这种 Coding 非常强大但没有图像支持的模型,做PPT、做前端还是差了些
于是我把模型换成M3,非常丝滑!
可以看到,它在根据结合图片、口播等梳理内容
随便截两页PPT,大家先看一下效果
接下来我来讲一下原因:
很多模型所谓的视频理解,其实是“先转文字,再理解文字”。
如果视频里有语音,这么做勉强可以。
但如果视频重点在画面操作,比如 PPT 教程、剪辑教程、设计教程、软件教学,单靠字幕就不够了。
因为关键步骤往往藏在画面里:
鼠标点了哪里;
图层顺序怎么调;
按钮在哪个菜单里;
动画时间轴怎么设置;
前后画面发生了什么变化。
这时候,原生多模态就有用。
这个任务里,M3 之所以可以吊打Claude(除去Claude不是完全体的因素),就是因为原生多模态。
它不只是总结“这是一个 PPT 文字遮罩教程”,而是会把操作动作拆出来。
这里我再讲几个延伸:
因为我这个只是一个 Demo,但是PPT的效果大家已经可以看到非常好了。
原生多模态对内容创作者、学生、研究员、知识博主都很有用。
因为以后你不只是“看视频”。
你可以把视频变成:教程、网页、卡片、题库、PPT、知识库、甚至一个 Skill。
结合Hermes本身的记忆能力和Skill,任何一个别人写的高质量教程都能变成自己的工作流。
这才是桌面 Agent 真正让人兴奋的地方。
/让 MiniMax M3 感受一次被导师支配的恐惧/
这里给M3上一下强度——让它复现一篇论文
不是让它总结论文,也不是让它写个读后感。而是让它独立复现。
大家应该都记得大学时候导师让你读论文时候的痛苦吧。论文读懂了,但实验设计出来结果跑不对,始终和论文作者的结果对不上。现在让AI体验一遍
我的Prompt如下:
请复现论文《LoRA: Low-Rank Adaptation of Large Language Models》的核心思想,并做成一个可交互的教学实验网页。
结果不对,它会自己调参。
最后不仅跑通核心实验,还复现出了论文里讨论的关键现象。
过程有点长,我就不放了,直接呈现结果:
有实验设置、有结果:
而且以上代码是可以直接跑的。
最后,结果用图表呈现:
这轮测下来,我最大的感受是:M3 的长上下文不是摆设。
很多模型也能读论文,但读着读着就开始丢细节。
前面刚定义过的变量,后面就忘了。
附录里的实验设置,正文里引用的时候对不上。
M3 在这个任务里比较稳的地方,是它能把论文、公式、实现和图表串起来。
/实现一个真正的前后端项目/
最后一个任务,其实这个也是最难的任务。
使用M3创建一个完整的产品,有前端、有后端、有数据库,全部用M3完成,过程与前面类似,但是更复杂,这里直接展示效果。
打开之后,可浏览、可点击、可搜索。
Vibe coding过的人都应该经历过:AI写出来的代码没问题,但跑起来总是频繁报错的崩溃瞬间。
我这次的体感是:M3 在 Hermes 里做这个项目,最有价值的是它把“可运行”当成终点,而不是把“写完代码”当成终点。从思维脸链里可以看到,遇到报错它会去追到根因、改完再跑;
在写代码的过程中也能够看到它推翻自己之前的结论重新溯源,遇到数据库 schema 不匹配就会补迁移。
对我来说,这就是从“会写代码的模型”,走向“能交付产品的同事”的分水岭。
/让 Hermes 把这次经验变成 Skill/
Hermes 真正有意思的地方,不是它能不能调用 M3。
而是它能不能把这几次任务里的经验留下来。
所以我做了最后一轮测试:同样的任务,如果丢给一个普通 Agent,下次它大概率还是从零开始。
但 Hermes 会把这次踩过的坑、走通的路、可复用的方法,变成一个 Skill。
以后再让它做类似任务,它不是重新推理。
它是调经验。
这就是“越用越聪明”的真实含义。
不是模型参数偷偷变了。
而是工作经验在积累。
/写在最后/
过去半年,Agent 圈最热闹的故事,是 OpenClaw 和 Hermes 的路线之争。
OpenClaw 代表广度:平台多,Skill 多,接入多,哪里都能用。
Hermes 代表深度:记住你,学习你,复盘你,越用越懂你。
以前这个区别,很多人感受不到。
因为 Hermes 更像一个需要折腾的开发者工具。
但桌面端上线之后,这件事开始变了。
当一个会长记性的 Agent,有了一个普通人也能打开的桌面入口;
当一个具备 1M 上下文、原生多模态、强 Coding 能力的开源模型,接进这个长期工作流;
很多事情就开始不一样了。
以前我们测试模型,问的是:
它能不能回答这个问题?
后来我们测试 Agent,问的是:
它能不能完成这个任务?
但 Hermes + M3 的这次尝试让我开始问另一个问题:它能不能在完成任务之后,变得更会完成下一次任务?
这是一个更重要的问题。
因为真正的员工不是一次性工具。
真正的搭档,也不是每次见面都要重新自我介绍。
它应该记得你怎么工作。
知道你在意什么。
理解你上次为什么改。
下次遇到类似问题时,少走一点弯路。
这才是 Agent 真正让人上头的地方。
功能可以追平。
模型可以换代。
界面可以复制。
但一个越用越懂你的工作系统,一旦跑起来,就很难回去了。
Hermes 桌面端上线,是 Agent 从命令行走向日常工作台的一步。
MiniMax M3 则证明,开源模型已经开始有能力撑住这些复杂任务。
一个提供长期记忆。
一个提供前沿执行力。
这俩放在一起,我愿意把它叫作:
普通人第一次真正摸到“超级员工”的雏形。
学AI大模型的正确顺序,千万不要搞错了
🤔2026年AI风口已来!各行各业的AI渗透肉眼可见,超多公司要么转型做AI相关产品,要么高薪挖AI技术人才,机遇直接摆在眼前!
有往AI方向发展,或者本身有后端编程基础的朋友,直接冲AI大模型应用开发转岗超合适!
就算暂时不打算转岗,了解大模型、RAG、Prompt、Agent这些热门概念,能上手做简单项目,也绝对是求职加分王🔋
📝给大家整理了超全最新的AI大模型应用开发学习清单和资料,手把手帮你快速入门!👇👇
学习路线:
✅大模型基础认知—大模型核心原理、发展历程、主流模型(GPT、文心一言等)特点解析
✅核心技术模块—RAG检索增强生成、Prompt工程实战、Agent智能体开发逻辑
✅开发基础能力—Python进阶、API接口调用、大模型开发框架(LangChain等)实操
✅应用场景开发—智能问答系统、企业知识库、AIGC内容生成工具、行业定制化大模型应用
✅项目落地流程—需求拆解、技术选型、模型调优、测试上线、运维迭代
✅面试求职冲刺—岗位JD解析、简历AI项目包装、高频面试题汇总、模拟面经
以上6大模块,看似清晰好上手,实则每个部分都有扎实的核心内容需要吃透!
我把大模型的学习全流程已经整理📚好了!抓住AI时代风口,轻松解锁职业新可能,希望大家都能把握机遇,实现薪资/职业跃迁~
