我的第一个 Agent Skills:auto-flow
/ 12 分钟阅读 /
目录 Table of Contents
大家好,我是 luckySnail ,不知道屏幕前的你是否也会每天都进行着一些重复的浏览器操作,例如:发布内容到 xx 平台,上架商品,调研信息等等,只要你使用浏览器每天做一些重复的事情,那么你就需要 auto-flow,今天要介绍的 auto-flow,auto-flow 是一个 Skill——它让你通过和 Codex / Claude Code 对话完成浏览器操作,并且记录下这个操作流程为一个 workflow ,只需要一次,以后就可以使用这个 workflow 完成之前的重复操作,并且在每一次
auto-flow 能干什么?
一句话概括:把你在浏览器里的重复操作,变成可以一键重放的”工作流”。
已经做好的工作流
| 工作流 | 干什么用的 |
|---|---|
| 千牛上传素材 | 自动打开千牛后台,上传商品图片素材 |
| 多 AI 同时提问 | 一个问题同时发给 ChatGPT、Gemini、Kimi、DeepSeek 等 7 个 AI |
| X(Twitter) 文章翻译 | 把推特帖子变成本地 Markdown 文件,图片自动传图床 |
| 文章导出 Markdown | 任意网页文章一键导出为 Markdown |
| 微信公众号发文 | 把 Markdown 文章自动发到微信公众号草稿箱 |
| Markdown 转图片 | 把 Markdown 渲染成带水印的图片卡片 |
看出来了吗?这些都是日常会反复做的事情。以前你每次都要手动点来点去,现在说一句话就搞定了。
它是怎么工作的?
原理:像人一样操作浏览器
auto-flow 不是什么黑科技爬虫,它的工作方式其实很直观——就像一个人坐在你旁边帮你操作电脑。
它用的是你自己日常使用的 Chrome 浏览器。你平时登录了淘宝、微信公众号、各种网站,它直接用你已有的登录状态来操作,不需要你再输一遍密码。
具体来说,它有两种”手”来操作浏览器:
- agent-browser:像人一样看页面、找按钮、点击填写。它会给页面上每个可操作的元素编号(@e1、@e2…),然后精准地去点击或填写
- CDP 操作:更底层的方式,直接用代码操作网页。适合需要精确控制的场景,比如批量提取数据
这就好比:agent-browser 是用鼠标点,CDP 是用代码操作。两种方式可以混着用。
核心概念:Workflow(工作流)
Workflow 是 auto-flow 的灵魂。你可以把它理解为一份操作说明书,记录了完成某个任务的每一步:
第 1 步:打开千牛后台 → 检查:URL 是不是千牛的地址?第 2 步:点击"素材中心" → 检查:页面上出现了素材列表吗?第 3 步:点击上传按钮 → 检查:文件选择框弹出来了吗?...每一步都有三个要素:
- command(命令):具体执行什么操作
- description(描述):这步到底要干什么(人话解释)
- verify(验证):怎么判断这一步成功了
聪明之处:失败了会自己想办法
这是 auto-flow 最酷的地方。网页这东西经常变——今天按钮在左边,明天可能挪到右边了。
传统的自动化脚本遇到这种情况就直接崩了。但 auto-flow 不一样:
命令成功 → 验证通过 → 继续下一步 ✅命令失败 ─┐验证不通过─┤→ AI 重新看页面,理解当前状态,自己想办法完成 → 再验证举个例子:workflow 里写的是”点击上传按钮”,但网站改版后按钮变成了一个图标。auto-flow 会重新扫描页面,发现”哦,这个图标就是上传功能”,然后点它。
更厉害的是——每次执行完,它会复盘总结:
- 哪些步骤一次就成功了?不用改。
- 哪些步骤需要”临时补救”?把补救方案更新回 workflow。
- 超过一半的步骤都失败了?说明网站大改版了,建议重新录一遍。
这意味着 workflow 会越用越准,有点像 AI 在”学习”网站的变化。
怎么安装和使用?
安装(3 步)
前提:你需要先安装好 Claude Code。
- 安装 auto-flow 技能:
npx skills add https://github.com/coderPerseus/auto-flow- 确保你有 Node.js 22 以上版本,并安装 agent-browser:
npm i -g agent-browser- 开启 Chrome 远程调试:
- 在 Chrome 地址栏输入
chrome://inspect/#remote-debugging - 勾选 Allow remote debugging for this browser instance
- 可能需要重启浏览器
- 在 Chrome 地址栏输入
使用(开口就行)
安装好之后,在 Claude Code 里直接用自然语言说就行:
# 看看有哪些现成的工作流"有哪些 workflow?"
# 执行已有的工作流"帮我执行多 AI 同时提问的 workflow,问题是:什么是量子计算?"
# 创建你自己的工作流"帮我创建一个 workflow:每天自动签到某某网站"
# 更新已有的工作流"重新走一遍千牛上传素材的流程,更新 workflow"创建自己的工作流
这是 auto-flow 最有意思的部分。你不需要写任何代码,只需要和 AI 对话,告诉它你想自动化什么操作:
- 你说:“帮我创建一个 workflow,在 XX 网站自动做 XX 事情”
- AI 会在浏览器里一步步尝试操作
- 每走通一步,就记录下来
- 全部走通后,保存成 workflow 文件
- 以后你说”执行 XX workflow”,它就自动重放
就像你给 AI 做了一次”示范”,它记住了,以后自己就会做了。
优缺点分析
优点
1. 真正的”无代码”自动化
你不需要学 Python、不需要会写爬虫。只要能用自然语言描述你要做什么,AI 就能帮你录制工作流。对非技术人员非常友好。
2. 用你自己的浏览器,不用重新登录
很多自动化工具需要你把账号密码写进配置文件(不安全),或者在一个新的浏览器里重新登录(麻烦)。auto-flow 直接用你日常的 Chrome,所有登录状态现成的。
3. 智能容错,不怕网站改版
传统脚本遇到网站改版就歇菜。auto-flow 有 AI 兜底,能根据页面实际情况自适应。而且每次执行后会自我进化,把有效的修复方案记录下来。
4. 工作流可复用、可分享
每个 workflow 就是一个 Markdown 文件,可以分享给别人用,也可以发布到 GitHub 让更多人受益。
5. 支持并行执行
需要同时操作多个页面(比如同时问 7 个 AI)?auto-flow 可以开多个标签页并行处理,比你手动一个个切快得多。
缺点
1. 需要一定的技术基础来安装
虽然使用时不需要写代码,但安装过程需要用命令行、装 Node.js、配置 Chrome 调试。对纯小白来说,第一步可能就有点卡。建议找一个懂技术的朋友帮忙装一次。
2. 稳定性受网站影响
虽然有智能容错,但如果目标网站做了很大的改版,或者反爬机制很强(比如验证码、人机检测),auto-flow 也可能搞不定。这时候就需要手动介入或者重新录制工作流。
3. 操作速度不算快
因为它是”像人一样”在操作浏览器(打开页面、等加载、找元素、点击…),速度不如直接调 API 快。如果你需要处理上千条数据,它可能不是最优选择。
4. 安全意识要有
它在你的真实浏览器里操作,理论上能做任何你能做的事情。虽然它有安全限制(不会动你已有的标签页、不会关浏览器),但让 AI 操作你的账号,你自己要清楚在做什么。
适合谁用?
| 你是… | 推荐程度 | 原因 |
|---|---|---|
| 电商运营(需要经常上传素材、发布商品) | ⭐⭐⭐⭐⭐ | 正是为你设计的 |
| 自媒体创作者(多平台分发内容) | ⭐⭐⭐⭐⭐ | 一键发到公众号、导出文章,太香了 |
| AI 爱好者(经常对比多个 AI 的回答) | ⭐⭐⭐⭐ | 多 AI 同时提问功能很实用 |
| 开发者(想自动化测试或数据收集) | ⭐⭐⭐⭐ | 比写爬虫脚本方便,但性能有上限 |
| 纯小白(没用过命令行) | ⭐⭐ | 安装有门槛,建议找人帮忙 |
和其他自动化工具的对比
| 特性 | auto-flow | Selenium/Playwright | 浏览器插件(如 iMacros) |
|---|---|---|---|
| 需要写代码 | 不需要 | 需要 | 不需要 |
| 智能容错 | AI 自适应 | 没有 | 没有 |
| 使用门槛 | 中(安装有门槛) | 高 | 低 |
| 自我进化 | 有 | 没有 | 没有 |
| 处理大批量数据 | 一般 | 强 | 一般 |
| 登录状态 | 复用已有 | 需要配置 | 复用已有 |
最后
auto-flow 的核心理念很简单:把你在浏览器里的重复劳动,交给 AI 来干。
它不完美——安装有门槛、速度不算快、遇到强反爬也会卡壳。但在它擅长的场景里(日常重复的网页操作、多平台内容分发、信息收集整理),它真的能帮你省下大量时间。
如果你每天都在做重复的网页操作,不妨试试。一次录制,反复使用,越用越准——这就是 auto-flow 的魅力。
GitHub 地址:https://github.com/coderPerseus/auto-flow
安装命令:
npx skills add https://github.com/coderPerseus/auto-flow