建構藍圖

How to Build an Agentic Browser

先決定你要做成什麼產品形態。高效率團隊不會一開始就打造完整瀏覽器,而是先選最小可驗證路徑,把規劃、執行、記憶與人工控制跑通。

一句話答案

要打造 agentic browser,你需要把規劃器、瀏覽器執行環境、持續上下文與審批護欄組合起來,然後先決定你要交付的是原型、擴充功能,還是瀏覽器原生工作空間。

選擇你的第一條建構路徑

最適合

研究、營運、跨分頁綜合、Agent-first 體驗。

第一步先做

把記憶、審批和任務狀態設計成瀏覽器原語,而不是後期外掛。

最小技術棧

瀏覽器殼層 + 任務記憶 + 規劃器 + 多模型路由

這個首屏首先是建構路線圖,而不是產品海報。

目前藍圖

真正可用的 agentic browser 必須承擔四件事

不論你選哪條路,只要它能理解目標、在會話中執行、保存上下文,並在網頁變動時恢復,它才不只是「自動化腳本」。

這些能力不能跳過

01

任務狀態不能只停留在單一頁面

02

執行環境既要能觀察,也要能行動

03

敏感操作前必須有審批點

04

記憶要保存結論,而不只是原始日誌

核心架構

只要不是玩具 Demo,幾乎都會出現這五個模組

具體工具會變,但一旦進入認真實作,整體架構模式其實相當穩定。

01

模型路由

輕量模型負責讀頁與抽取,強模型負責規劃、反思與高風險判斷。

02

規劃器

把使用者目標拆成順序步驟,並根據瀏覽器即時狀態持續更新計畫。

03

瀏覽器執行環境

讀取 DOM、辨識頁面狀態、點擊、輸入、跳轉,並從真實會話中蒐集證據。

04

記憶系統

保存任務狀態、已抽取事實與待確認問題,避免每開一個分頁就重新開始。

05

審批與恢復

高風險操作前暫停,失敗時可檢測並重試,網頁結構變動後仍有恢復路徑。

實作順序

用四個階段交付,不要一次全做

01

先讓一個流程真正有用

先選窄任務,例如比較三個供應商、從表單提取欄位,或總結一組分頁。

02

先把操作做穩

在擴大任務前,先加上重試、頁面檢查、截圖與操作日誌。

03

加入持續上下文

跨分頁、跨會話保存狀態,讓 Agent 能接著做,而不是重新做。

04

設計瀏覽器原生體驗

把任務歷史、審批與記憶放進使用者真正工作的瀏覽環境,而不是除錯面板。

路線對比

原型 vs 擴充功能 vs 瀏覽器原生工作空間

驗證速度
原型 Agent最高
擴充功能較快
瀏覽器原生工作空間最慢
跨分頁上下文
原型 Agent有限
擴充功能中等
瀏覽器原生工作空間最好
信任與審批
原型 Agent手動處理
擴充功能零散補丁
瀏覽器原生工作空間產品級
長期差異化
原型 Agent
擴充功能
瀏覽器原生工作空間最高

Tabbit 證明了什麼

如果你走瀏覽器原生路線,Tabbit 是值得研究的參考點

最難的不是讓 Agent 點一下按鈕,而是讓任務、上下文與審批真正成為瀏覽體驗的一部分。Tabbit 的價值就在這裡。

任務優先的瀏覽方式

瀏覽介面圍繞工作組織,而不是圍繞孤立提示詞組織。

多分頁上下文

上下文跟著任務流走,因此研究與綜合不只侷限於單一頁面。

Agent UX,而不是插件 UX

Agent 不是掛在瀏覽器旁邊,而是瀏覽環境本身的一部分。

FAQ

建構者最先會問的問題

打造 agentic browser 最快的方法是什麼?

先在自動化執行環境上做一個單流程 Agent,再補上記憶與審批點,最後再擴展範圍。

我應該做擴充功能還是完整瀏覽器?

如果只是需要在既有瀏覽器中提供頁面助手,先做擴充功能;如果產品核心是長任務與跨分頁上下文,就做瀏覽器原生工作空間。

瀏覽器 Agent 和一般瀏覽器自動化有什麼不同?

自動化執行固定指令;瀏覽器 Agent 會理解目標、根據即時頁面狀態更新計畫,並在多步驟中攜帶任務記憶。

記憶系統在哪些情境最重要?

當任務跨多個分頁、持續數分鐘以上,或中間需要人工審核時,記憶系統就是核心能力。

Next step

先把架構搭起來,再研究一個已上線的參考產品

如果你想看瀏覽器原生路線在真實產品中長什麼樣子,下一步就看 Tabbit。