跳转到内容
幸运的蜗牛 Logo 幸运的蜗牛
EN

我的第一个 Agent Skills:auto-flow

/ 12 分钟阅读 /
#ai #agent skills
目录 Table of Contents

大家好,我是 luckySnail ,不知道屏幕前的你是否也会每天都进行着一些重复的浏览器操作,例如:发布内容到 xx 平台,上架商品,调研信息等等,只要你使用浏览器每天做一些重复的事情,那么你就需要 auto-flow,今天要介绍的 auto-flow,auto-flow 是一个 Skill——它让你通过和 Codex / Claude Code 对话完成浏览器操作,并且记录下这个操作流程为一个 workflow ,只需要一次,以后就可以使用这个 workflow 完成之前的重复操作,并且在每一次

auto-flow 能干什么?

一句话概括:把你在浏览器里的重复操作,变成可以一键重放的”工作流”。

已经做好的工作流

工作流干什么用的
千牛上传素材自动打开千牛后台,上传商品图片素材
多 AI 同时提问一个问题同时发给 ChatGPT、Gemini、Kimi、DeepSeek 等 7 个 AI
X(Twitter) 文章翻译把推特帖子变成本地 Markdown 文件,图片自动传图床
文章导出 Markdown任意网页文章一键导出为 Markdown
微信公众号发文把 Markdown 文章自动发到微信公众号草稿箱
Markdown 转图片把 Markdown 渲染成带水印的图片卡片

看出来了吗?这些都是日常会反复做的事情。以前你每次都要手动点来点去,现在说一句话就搞定了。

它是怎么工作的?

原理:像人一样操作浏览器

auto-flow 不是什么黑科技爬虫,它的工作方式其实很直观——就像一个人坐在你旁边帮你操作电脑

它用的是你自己日常使用的 Chrome 浏览器。你平时登录了淘宝、微信公众号、各种网站,它直接用你已有的登录状态来操作,不需要你再输一遍密码。

具体来说,它有两种”手”来操作浏览器:

  1. agent-browser:像人一样看页面、找按钮、点击填写。它会给页面上每个可操作的元素编号(@e1、@e2…),然后精准地去点击或填写
  2. CDP 操作:更底层的方式,直接用代码操作网页。适合需要精确控制的场景,比如批量提取数据

这就好比:agent-browser 是用鼠标点,CDP 是用代码操作。两种方式可以混着用。

核心概念:Workflow(工作流)

Workflow 是 auto-flow 的灵魂。你可以把它理解为一份操作说明书,记录了完成某个任务的每一步:

第 1 步:打开千牛后台 → 检查:URL 是不是千牛的地址?
第 2 步:点击"素材中心" → 检查:页面上出现了素材列表吗?
第 3 步:点击上传按钮 → 检查:文件选择框弹出来了吗?
...

每一步都有三个要素:

  • command(命令):具体执行什么操作
  • description(描述):这步到底要干什么(人话解释)
  • verify(验证):怎么判断这一步成功了

聪明之处:失败了会自己想办法

这是 auto-flow 最酷的地方。网页这东西经常变——今天按钮在左边,明天可能挪到右边了。

传统的自动化脚本遇到这种情况就直接崩了。但 auto-flow 不一样:

命令成功 → 验证通过 → 继续下一步 ✅
命令失败 ─┐
验证不通过─┤→ AI 重新看页面,理解当前状态,自己想办法完成 → 再验证

举个例子:workflow 里写的是”点击上传按钮”,但网站改版后按钮变成了一个图标。auto-flow 会重新扫描页面,发现”哦,这个图标就是上传功能”,然后点它。

更厉害的是——每次执行完,它会复盘总结

  • 哪些步骤一次就成功了?不用改。
  • 哪些步骤需要”临时补救”?把补救方案更新回 workflow。
  • 超过一半的步骤都失败了?说明网站大改版了,建议重新录一遍。

这意味着 workflow 会越用越准,有点像 AI 在”学习”网站的变化。

怎么安装和使用?

安装(3 步)

前提:你需要先安装好 Claude Code。

  1. 安装 auto-flow 技能:
Terminal window
npx skills add https://github.com/coderPerseus/auto-flow
  1. 确保你有 Node.js 22 以上版本,并安装 agent-browser:
Terminal window
npm i -g agent-browser
  1. 开启 Chrome 远程调试:
    • 在 Chrome 地址栏输入 chrome://inspect/#remote-debugging
    • 勾选 Allow remote debugging for this browser instance
    • 可能需要重启浏览器

使用(开口就行)

安装好之后,在 Claude Code 里直接用自然语言说就行:

# 看看有哪些现成的工作流
"有哪些 workflow?"
# 执行已有的工作流
"帮我执行多 AI 同时提问的 workflow,问题是:什么是量子计算?"
# 创建你自己的工作流
"帮我创建一个 workflow:每天自动签到某某网站"
# 更新已有的工作流
"重新走一遍千牛上传素材的流程,更新 workflow"

创建自己的工作流

这是 auto-flow 最有意思的部分。你不需要写任何代码,只需要和 AI 对话,告诉它你想自动化什么操作:

  1. 你说:“帮我创建一个 workflow,在 XX 网站自动做 XX 事情”
  2. AI 会在浏览器里一步步尝试操作
  3. 每走通一步,就记录下来
  4. 全部走通后,保存成 workflow 文件
  5. 以后你说”执行 XX workflow”,它就自动重放

就像你给 AI 做了一次”示范”,它记住了,以后自己就会做了。

优缺点分析

优点

1. 真正的”无代码”自动化

你不需要学 Python、不需要会写爬虫。只要能用自然语言描述你要做什么,AI 就能帮你录制工作流。对非技术人员非常友好。

2. 用你自己的浏览器,不用重新登录

很多自动化工具需要你把账号密码写进配置文件(不安全),或者在一个新的浏览器里重新登录(麻烦)。auto-flow 直接用你日常的 Chrome,所有登录状态现成的。

3. 智能容错,不怕网站改版

传统脚本遇到网站改版就歇菜。auto-flow 有 AI 兜底,能根据页面实际情况自适应。而且每次执行后会自我进化,把有效的修复方案记录下来。

4. 工作流可复用、可分享

每个 workflow 就是一个 Markdown 文件,可以分享给别人用,也可以发布到 GitHub 让更多人受益。

5. 支持并行执行

需要同时操作多个页面(比如同时问 7 个 AI)?auto-flow 可以开多个标签页并行处理,比你手动一个个切快得多。

缺点

1. 需要一定的技术基础来安装

虽然使用时不需要写代码,但安装过程需要用命令行、装 Node.js、配置 Chrome 调试。对纯小白来说,第一步可能就有点卡。建议找一个懂技术的朋友帮忙装一次。

2. 稳定性受网站影响

虽然有智能容错,但如果目标网站做了很大的改版,或者反爬机制很强(比如验证码、人机检测),auto-flow 也可能搞不定。这时候就需要手动介入或者重新录制工作流。

3. 操作速度不算快

因为它是”像人一样”在操作浏览器(打开页面、等加载、找元素、点击…),速度不如直接调 API 快。如果你需要处理上千条数据,它可能不是最优选择。

4. 安全意识要有

它在你的真实浏览器里操作,理论上能做任何你能做的事情。虽然它有安全限制(不会动你已有的标签页、不会关浏览器),但让 AI 操作你的账号,你自己要清楚在做什么。

适合谁用?

你是…推荐程度原因
电商运营(需要经常上传素材、发布商品)⭐⭐⭐⭐⭐正是为你设计的
自媒体创作者(多平台分发内容)⭐⭐⭐⭐⭐一键发到公众号、导出文章,太香了
AI 爱好者(经常对比多个 AI 的回答)⭐⭐⭐⭐多 AI 同时提问功能很实用
开发者(想自动化测试或数据收集)⭐⭐⭐⭐比写爬虫脚本方便,但性能有上限
纯小白(没用过命令行)⭐⭐安装有门槛,建议找人帮忙

和其他自动化工具的对比

特性auto-flowSelenium/Playwright浏览器插件(如 iMacros)
需要写代码不需要需要不需要
智能容错AI 自适应没有没有
使用门槛中(安装有门槛)
自我进化没有没有
处理大批量数据一般一般
登录状态复用已有需要配置复用已有

最后

auto-flow 的核心理念很简单:把你在浏览器里的重复劳动,交给 AI 来干。

它不完美——安装有门槛、速度不算快、遇到强反爬也会卡壳。但在它擅长的场景里(日常重复的网页操作、多平台内容分发、信息收集整理),它真的能帮你省下大量时间。

如果你每天都在做重复的网页操作,不妨试试。一次录制,反复使用,越用越准——这就是 auto-flow 的魅力。


GitHub 地址:https://github.com/coderPerseus/auto-flow

安装命令:npx skills add https://github.com/coderPerseus/auto-flow