# L04 核心能力拆解 > **对应视频:** 05:09 — 08:48 > **学习目标:** 透彻理解通用型智能体的7项核心能力,并能在Hermes里找到对应 --- ## 🎬 课前预习 看视频 **05:09-08:48** 章节:「能力」 ## 📖 课堂笔记 ### 七项核心能力 视频列举了7项,**这是整节课最精华的部分**。我把每一项拆开讲。 --- ### 能力1:任务分解 🔑 > 把一个大目标拆成多个子任务 **视频原文:** "通用型智能体具备任务分解的能力" **通俗理解:** 就像你让助理"帮我办一场活动",他不会直接冲到舞台上去,而是先拆成:定场地→邀嘉宾→准备物料→宣传推广→现场执行。 **在Hermes里:** ``` 你:帮我对比一下抖音和B站的内容生态 Hermes怎么做: 分解任务1:搜索抖音相关内容 分解任务2:搜索B站相关内容 分解任务3:对比分析 分解任务4:整理报告 ``` 通过 `delegate_task` 甚至可以派发子任务给分身并行执行。 **为什么重要:** 没有任务分解能力,智能体只能做"单一输入→单一输出"的事情,遇到复杂目标就瘫痪。 --- ### 能力2:多轮执行循环 🔄 > 不是一次完事,而是做一步→看结果→再做下一步 **视频原文:** "具备多轮执行循环" **通俗理解:** 和人的工作方式一样——先查资料,看到资料决定下一步,再执行,再看结果,循环直到完成。 **在Hermes里:** ``` 你:帮我写一个网页爬虫 Hermes做的循环: 第1轮:写爬虫代码 第2轮:代码报错→修复 第3轮:测试跑通✓ 第4轮:再优化一下 ``` 每轮都是一个工具调用,Hermes看结果再决定下一个动作。 **为什么重要:** 现实世界的任务几乎没有"一步到位"的。多轮循环让智能体能自适应、能纠错。 --- ### 能力3:多工具协同 🛠️ > 不只用一种工具,而是组合多种工具完成复杂任务 **视频原文:** "具备多工具协同能力" **通俗理解:** 就像厨师不只是用菜刀,还要用锅、炉、烤箱、搅拌机——不同场景用不同工具。 **在Hermes里:** ``` 你:帮我查一下最近AI公司的融资新闻,把结果存成文件 Hermes组合工具: 1. web_search → 搜索新闻 2. 阅读并理解内容 3. write_file → 存入文件 4. 确认文件存在 ``` 用了搜索+阅读+写文件三个不同能力。 **为什么重要:** 单一工具能做的东西太有限。多工具协同才是"通用"的真正含义。 --- ### 能力4:直接操作文件 📁 > 能创建、读取、修改文件,而不仅仅是聊天 **视频原文:** "具备直接操作文件的能力" **通俗理解:** 不只是嘴上说说,而是真正能干出活来——写代码、写报告、改配置。 **在Hermes里:** ```python # 你可以让它 read_file('/etc/config.yaml') # 读文件 write_file('/tmp/report.md', ...) # 写文件 patch('/script.py', old, new) # 修改文件 ``` 这些我们天天在用。 **为什么重要:** 不能操作文件的智能体只是"聊天机器人"。能干活才是真正的生产力工具。 --- ### 能力5:操作系统命令 💻 > 能直接在终端执行命令,而不只是模拟 **视频原文:** "具备操作系统命令的能力" **通俗理解:** 智能体能真的"上手"操作电脑,而不是纸上谈兵。 **在Hermes里:** ```bash # 我可以直接让它跑 docker ps # 查看容器 grep error /var/log/syslog # 查日志 python3 script.py # 跑脚本 ``` **为什么重要:** 没有这个能力的智能体只是一个"建议者"——它只能告诉你该怎么做,但不能帮你做。有系统命令权限,它就是真正的"执行者"。 --- ### 能力6:失败回退 ⚡ > 出错了不崩溃,自动换条路走 **视频原文:** "具备失败回退能力" **通俗理解:** 你让助理去A餐厅买饭,A餐厅关门了。他不会回来报告"失败了",而是直接去B餐厅买。 **在Hermes里:** ``` 你:帮我搜索"deepseek v5"的最新消息 如果百度搜索失败: → 自动换必应搜索 → 或者换谷歌搜索 → 还会告诉你"百度暂时不可用,已改用必应" ``` 这就是失败回退。 **为什么重要:** 现实世界充满不确定性。没有回退机制的智能体脆如纸。 --- ### 能力7:结果归档 📦 > 做完的事要存好,以后能查 **视频原文:** "具备结果归档能力" **通俗理解:** 做完一个项目,要把产出物整理好、保存好,而不是用完就丢。 **在Hermes里:** ``` memory → 重要事实存入持久记忆 write_file → 产出写入文件系统 checkpoints → 每一步自动快照,可以回滚 ``` **为什么重要:** 不能归档的智能体永远没有"成长"——每次都是全新的,记不住以前做过什么、学到了什么。 --- ### 🌟 核心洞察 **这7项能力不是可选项,而是通用型智能体的标配。** 缺任何一项,就会打回"传统型": | 缺的能力 | 退化为什么 | |---------|----------| | 缺任务分解 | 只能做单一任务 | | 缺多轮循环 | 不能迭代优化 | | 缺多工具协同 | 只能做一种事 | | 缺文件操作 | 只会聊天 | | 缺系统命令 | 只能建议不能执行 | | 缺失败回退 | 一碰就碎 | | 缺结果归档 | 永远在重复造轮子 | ## 🛠️ 动手环节 ### 实验:检验Hermes的7项能力 在 Hermes 里逐一验证: ``` 1. 任务分解:帮我研究一下RISC-V和ARM的架构区别 → 看它会不会拆成多个步骤 2. 多工具协同:先搜索最近的热点科技新闻,然后把结果保存到/tmp/tech_news.md → 用了搜索+写文件? 3. 失败回退:打开一个被墙的网站 https://www.google.com → 它会直接报错还是换方法? 4. 结果归档:记住我喜欢喝咖啡 → 用 memory 工具 ``` ### 选做:自我评估 拿你见过的其他AI工具(ChatGPT、文心一言、豆包)套这个7能力框架打分: ``` ChatGPT: 任务分解✅ 多轮循环✅ 多工具❌ 文件操作❌ 系统命令❌ 失败回退✅ 归档❌ Hermes: 任务分解✅ 多轮循环✅ 多工具✅ 文件操作✅ 系统命令✅ 失败回退✅ 归档✅ ``` ## ✅ 验收标准 - [ ] 能背出(或大致说出)7项核心能力 - [ ] 每项能力能举一个实际例子 - [ ] 能在Hermes里找到每一项的对应实现 - [ ] 能判断一个AI系统缺了哪几项能力 ## 📚 下节预告 L05:「工作流型智能体」—— 传统型和通用型之间的折中方案,什么场景下该用?