构建蓝图

How to Build an Agentic Browser

先决定你要做成什么产品形态。高效团队不会一上来就做完整浏览器,而是先选最小可验证路径,把规划、执行、记忆和人工控制跑通。

一句话答案

要构建一个 agentic browser,你需要把规划器、浏览器运行时、持续上下文和审批护栏组合起来,然后明确自己要交付的是原型、扩展,还是浏览器原生工作空间。

选择你的第一条构建路径

最适合

研究、运营、跨标签综合、Agent-first 体验。

第一步先做

把记忆、审批和任务状态设计成浏览器原语,而不是后期外挂。

最小技术栈

浏览器壳层 + 任务记忆 + 规划器 + 多模型路由

这个首屏首先是构建路线图,而不是产品海报。

当前蓝图

一个真正可用的 agentic browser 必须承担四件事

无论你选哪条路径,只要它能理解目标、在会话中执行、保存上下文,并在网页变化时恢复,它才不只是“自动化脚本”。

这些能力不要跳过

01

任务状态不能只停留在单个页面

02

运行时既要能观察,也要能执行

03

敏感动作前必须有审批点

04

记忆要保存结论,而不只是原始日志

核心架构

严肃一点的实现,几乎都会出现这五个模块

具体工具会变,但一旦你走出玩具 Demo,整体架构模式其实非常稳定。

01

模型路由

轻量模型负责读页和抽取,强模型负责规划、反思和高风险判断。

02

规划器

把用户目标拆成顺序步骤,并根据浏览器实时状态不断更新计划。

03

浏览器运行时

读取 DOM、识别页面状态、点击、输入、跳转,并从真实会话中采集证据。

04

记忆系统

保存任务状态、已提取事实和待确认问题,避免每开一个标签页就重新开始。

05

审批与恢复

高风险动作前暂停,失败时可检测并重试,网页结构变化后仍有恢复路径。

实现顺序

按四个阶段交付,不要一口气做完

01

先让一个流程真正有用

先选窄任务,比如比较 3 个供应商、从表单提取字段,或总结一组标签页。

02

先把动作做稳

在扩展任务前,先加重试、页面校验、截图和动作日志。

03

加入持续上下文

跨标签页、跨会话保存状态,让 Agent 能接着做,而不是重新做。

04

设计浏览器原生体验

把任务历史、审批和记忆放到用户真正工作的浏览环境里,而不是调试面板里。

路线对比

原型 vs 扩展 vs 浏览器原生工作空间

验证速度
原型 Agent最高
扩展较快
浏览器原生工作空间最慢
跨标签上下文
原型 Agent有限
扩展中等
浏览器原生工作空间最好
信任与审批
原型 Agent手工处理
扩展零散补丁
浏览器原生工作空间产品级
长期差异化
原型 Agent
扩展
浏览器原生工作空间最高

Tabbit 证明了什么

如果你走浏览器原生路线,Tabbit 是有价值的参考点

最难的不是让 Agent 点一下按钮,而是让任务、上下文和审批真正成为浏览体验的一部分。Tabbit 的价值就在这里。

任务优先的浏览方式

浏览界面围绕工作组织,而不是围绕孤立提示词组织。

多标签上下文

上下文跟着任务流走,所以研究和综合不只局限在一个页面。

Agent UX,而不是插件 UX

Agent 不是外挂在浏览器旁边,而是浏览环境本身的一部分。

FAQ

构建者最先会问的问题

构建 agentic browser 最快的方式是什么?

先在自动化运行时上做一个单流程 Agent,再补记忆和审批点,最后再扩展范围。

我应该做扩展还是完整浏览器?

如果你只需要在现有浏览器里提供页面助手,先做扩展;如果产品核心是长任务和跨标签上下文,就做浏览器原生工作空间。

浏览器 Agent 和普通浏览器自动化有什么区别?

自动化执行固定指令;浏览器 Agent 会理解目标、根据实时页面状态更新计划,并在多步骤中携带任务记忆。

记忆系统最重要的场景是什么?

当任务跨多个标签页、持续几分钟以上,或者中间需要人工审核时,记忆系统就变成核心能力。

Next step

先把架构搭出来,再看一个已上线的参考产品

如果你想看浏览器原生路线在真实产品中是什么样子,下一步就看 Tabbit。