§ 02Core Capabilities
能在浏览器里
真正干活的 Agent。
不只是点按钮。长尾流程、频繁变动的界面、需要判断的分支——这些才是 Agent 的主场。
01
自愈选择器
Self-Healing Selectors
DOM 结构改版后,Agent 自动识别等价元素,无需重写脚本。
02
工作流缓存
Workflow Caching
重复任务到第二次直接复用走过的路径,10–100× 加速。
03
人工审批门
Human Approval Gates
高风险动作(提交、付款、删除)暂停等待人工放行。
04
双通道理解
Dual-Channel Vision
同时读 Accessibility tree 和视觉截图,两条通道交叉验证,不被复杂界面骗到。
05
Plan · Act · Verify 闭环
Closed-Loop Reasoning
每一步动作都验证;不对就回滚或自己修。
06
LLM 原生
LLM-Native
大模型做推理引擎。任务、工具、约束全用自然语言写,不用编程。
§ 03Industries
先在三个行业里,把事情做透。
流程清晰、操作高频、出错代价可控——从这样的场景切入,逐个跑通,再往外扩。
§ 04How it works
观察 → 规划 → 执行 → 验证
每个智能体在浏览器中按这个闭环工作。失败是常态;自愈让闭环可靠。
01Observe
观察
读页面结构,看视觉布局,搞清楚哪里能点、哪里有数据。
02Plan
规划
拆解任务,排出步骤,挑合适的工具。
03Execute
执行
在浏览器里一步步操作;走过的路径有缓存,不重复推理。
04Verify
验证
拿结果和预期对一遍;不对就回滚,或者自己修。