当前位置：首页 > news >正文

Hermes桌面端来了！我捏了一个比我更会打工的AI同事

news 2026/6/6 21:35:29

昨天，Hermes Agent 桌面端上线了。

看到这个消息的时候，我第一反应是：Hermes 真是把饭喂到嘴边了。

以前你想跑 Hermes，多少还得有点心理建设。

装环境、配服务、连远程、看日志、写配置。

懂的人觉得不难。

但普通用户看到这几步，基本已经开始犯困了。

桌面端的推出，真的是给我这种懒得开终端的人的福利了！

还有一个消息：这两天 MiniMax 把 M3 也放出来了。

关键词很猛：Coding Frontier、1M 上下文、原生多模态。

也就是现在前沿模型最重要的三件套，一次性集齐了。

另外 Hermes 框架 Nous Research 的联合创始人，还公开在 X 上给 M3 背书。

那问题就来了：

如果把 Hermes 桌面端接上 MiniMax M3，它到底能变成什么？

说测就测，开干！

原则就一个：它到底能不能替我把活儿干好？

所以这次我没有只看跑分，而是按真实工作流测了几类任务。

/为什么是 MiniMax M3/

Coding Frontier、1M 上下文、原生多模态。

这三个词分开看，大家可能都已经听麻了。

会写代码，不稀奇。

上下文长，也不稀奇。

能看图看视频，现在也不稀奇。

但把这三件事放在同一个模型里，而且还能开源，这就不太一样了。

因为真实 Agent 任务从来不是单线程的。

你要它做一个网站，它得看文档、看图片、看视频、写代码、调样式、查报错、再部署。

你要它分析一个展会地图，它得识别 Logo、搜索公司资料、整理上下游、再做成报告。

你要它复现一篇论文，它得看公式、看图表、跑代码、读日志、修错误，十几个小时里还不能忘了自己前面干过什么。

这类任务不是“问答题”。

这是“项目制”。

所以 M3 真正值得测的地方，不是单轮回答有多聪明，而是它放进 Hermes 这种 Agent 框架后，能不能跑出一条完整交付链。

/给贾克斯做一个官网/

我故意设计得很像真实甲方需求。

不是那种“请用 React 写一个科技感官网”的干净 Prompt。

真实世界没有这么干净。

真实世界是这样的：一个文件夹里有公司介绍 PDF，有几张产品图，有一段宣传视频，有一堆 Logo，还有几句写得半生不熟的卖点文案。

然后老板说：“你帮我整成一个官网首页吧，好看点。”

于是，我也开始压榨我的AI员工：帮我做一个贾克斯的平行世界官网。

我以为等待我的是大面积的抽卡，没想到，一遍过。大家直接看吧：

效果惊艳到让我都有点震惊。

这个任务考验的不是单纯写 HTML。

它真正考的是：模型能不能同时理解多种素材，并把它们组织成一个完整页面。

M3 的表现比较符合我对“Agent 模型”的期待。

它会先扫素材，再自己判断哪些图片适合做首屏，哪些视频适合放到产品介绍，哪些文案适合拆成卖点。

中间如果遇到路径问题、素材加载失败、页面样式错位，它也不会立刻停下来问你怎么办，而是会继续查问题、改路径、重跑。

这点很重要。

因为真实工作里，一个 AI 如果每走两步就来问你一次，那它就不是同事，是个大型弹窗。

这就是我觉得 M3 比 M2 系列体感提升明显的地方。

它不只是回答更聪明，而是更能“把事做完”。

/让它看 AI 教程，然后直接做 PPT/

之前，我看了一个做海外电商的口播带货视频，觉得很有用，我想把它用Claude code复现一下。

Prompt如下：请认真观看这个电商直播视频，把视频里的操作步骤拆成一份可执行SOP

由于我的Hermes之前配置的模型是Claude Opus 4.6，对于这个任务，在让M3跑之前，我让Opus 4.6也跑了一遍，前面的归纳部分做的都非常准确，但是在最后，给我来了这么一句：

我直接Emo…

而且对于Claude这种 Coding 非常强大但没有图像支持的模型，做PPT、做前端还是差了些

于是我把模型换成M3，非常丝滑！

可以看到，它在根据结合图片、口播等梳理内容

随便截两页PPT，大家先看一下效果

接下来我来讲一下原因：

很多模型所谓的视频理解，其实是“先转文字，再理解文字”。

如果视频里有语音，这么做勉强可以。

但如果视频重点在画面操作，比如 PPT 教程、剪辑教程、设计教程、软件教学，单靠字幕就不够了。

因为关键步骤往往藏在画面里：

鼠标点了哪里；

图层顺序怎么调；

按钮在哪个菜单里；

动画时间轴怎么设置；

前后画面发生了什么变化。

这时候，原生多模态就有用。

这个任务里，M3 之所以可以吊打Claude（除去Claude不是完全体的因素），就是因为原生多模态。

它不只是总结“这是一个 PPT 文字遮罩教程”，而是会把操作动作拆出来。

这里我再讲几个延伸：

因为我这个只是一个 Demo，但是PPT的效果大家已经可以看到非常好了。

原生多模态对内容创作者、学生、研究员、知识博主都很有用。

因为以后你不只是“看视频”。

你可以把视频变成：教程、网页、卡片、题库、PPT、知识库、甚至一个 Skill。

结合Hermes本身的记忆能力和Skill，任何一个别人写的高质量教程都能变成自己的工作流。

这才是桌面 Agent 真正让人兴奋的地方。

/让 MiniMax M3 感受一次被导师支配的恐惧/

这里给M3上一下强度——让它复现一篇论文

不是让它总结论文，也不是让它写个读后感。而是让它独立复现。

大家应该都记得大学时候导师让你读论文时候的痛苦吧。论文读懂了，但实验设计出来结果跑不对，始终和论文作者的结果对不上。现在让AI体验一遍

我的Prompt如下：

请复现论文《LoRA: Low-Rank Adaptation of Large Language Models》的核心思想，并做成一个可交互的教学实验网页。

结果不对，它会自己调参。

最后不仅跑通核心实验，还复现出了论文里讨论的关键现象。

过程有点长，我就不放了，直接呈现结果：

有实验设置、有结果：

而且以上代码是可以直接跑的。

最后，结果用图表呈现：

这轮测下来，我最大的感受是：M3 的长上下文不是摆设。

很多模型也能读论文，但读着读着就开始丢细节。

前面刚定义过的变量，后面就忘了。

附录里的实验设置，正文里引用的时候对不上。

M3 在这个任务里比较稳的地方，是它能把论文、公式、实现和图表串起来。

/实现一个真正的前后端项目/

最后一个任务，其实这个也是最难的任务。

使用M3创建一个完整的产品，有前端、有后端、有数据库，全部用M3完成，过程与前面类似，但是更复杂，这里直接展示效果。

打开之后，可浏览、可点击、可搜索。

Vibe coding过的人都应该经历过：AI写出来的代码没问题，但跑起来总是频繁报错的崩溃瞬间。

我这次的体感是：M3 在 Hermes 里做这个项目，最有价值的是它把“可运行”当成终点，而不是把“写完代码”当成终点。从思维脸链里可以看到，遇到报错它会去追到根因、改完再跑；

在写代码的过程中也能够看到它推翻自己之前的结论重新溯源，遇到数据库 schema 不匹配就会补迁移。

对我来说，这就是从“会写代码的模型”，走向“能交付产品的同事”的分水岭。

/让 Hermes 把这次经验变成 Skill/

Hermes 真正有意思的地方，不是它能不能调用 M3。

而是它能不能把这几次任务里的经验留下来。

所以我做了最后一轮测试：同样的任务，如果丢给一个普通 Agent，下次它大概率还是从零开始。

但 Hermes 会把这次踩过的坑、走通的路、可复用的方法，变成一个 Skill。

以后再让它做类似任务，它不是重新推理。

它是调经验。

这就是“越用越聪明”的真实含义。

不是模型参数偷偷变了。

而是工作经验在积累。

/写在最后/

过去半年，Agent 圈最热闹的故事，是 OpenClaw 和 Hermes 的路线之争。

OpenClaw 代表广度：平台多，Skill 多，接入多，哪里都能用。

Hermes 代表深度：记住你，学习你，复盘你，越用越懂你。

以前这个区别，很多人感受不到。

因为 Hermes 更像一个需要折腾的开发者工具。

但桌面端上线之后，这件事开始变了。

当一个会长记性的 Agent，有了一个普通人也能打开的桌面入口；

当一个具备 1M 上下文、原生多模态、强 Coding 能力的开源模型，接进这个长期工作流；

很多事情就开始不一样了。

以前我们测试模型，问的是：

它能不能回答这个问题？

后来我们测试 Agent，问的是：

它能不能完成这个任务？

但 Hermes + M3 的这次尝试让我开始问另一个问题：它能不能在完成任务之后，变得更会完成下一次任务？

这是一个更重要的问题。

因为真正的员工不是一次性工具。

真正的搭档，也不是每次见面都要重新自我介绍。

它应该记得你怎么工作。

知道你在意什么。

理解你上次为什么改。

下次遇到类似问题时，少走一点弯路。

这才是 Agent 真正让人上头的地方。

功能可以追平。

模型可以换代。

界面可以复制。

但一个越用越懂你的工作系统，一旦跑起来，就很难回去了。

Hermes 桌面端上线，是 Agent 从命令行走向日常工作台的一步。

MiniMax M3 则证明，开源模型已经开始有能力撑住这些复杂任务。

一个提供长期记忆。

一个提供前沿执行力。

这俩放在一起，我愿意把它叫作：

普通人第一次真正摸到“超级员工”的雏形。

学AI大模型的正确顺序，千万不要搞错了

🤔2026年AI风口已来！各行各业的AI渗透肉眼可见，超多公司要么转型做AI相关产品，要么高薪挖AI技术人才，机遇直接摆在眼前！

有往AI方向发展，或者本身有后端编程基础的朋友，直接冲AI大模型应用开发转岗超合适！

就算暂时不打算转岗，了解大模型、RAG、Prompt、Agent这些热门概念，能上手做简单项目，也绝对是求职加分王🔋

📝给大家整理了超全最新的AI大模型应用开发学习清单和资料，手把手帮你快速入门！👇👇

学习路线:

✅大模型基础认知—大模型核心原理、发展历程、主流模型（GPT、文心一言等）特点解析
✅核心技术模块—RAG检索增强生成、Prompt工程实战、Agent智能体开发逻辑
✅开发基础能力—Python进阶、API接口调用、大模型开发框架（LangChain等）实操
✅应用场景开发—智能问答系统、企业知识库、AIGC内容生成工具、行业定制化大模型应用
✅项目落地流程—需求拆解、技术选型、模型调优、测试上线、运维迭代
✅面试求职冲刺—岗位JD解析、简历AI项目包装、高频面试题汇总、模拟面经

以上6大模块，看似清晰好上手，实则每个部分都有扎实的核心内容需要吃透！

我把大模型的学习全流程已经整理📚好了！抓住AI时代风口，轻松解锁职业新可能，希望大家都能把握机遇，实现薪资/职业跃迁～