日常写前端,基本就是几件事:
写代码,切回浏览器点来点去,看页面样子,再切回去改。
如果设计稿还在 Figma,需求在某个项目管理工具里,那就再加几页网页。
一边开着控制台看错误,一边盯着网络请求,脑子里还要记当前这个 state 到底在哪个组件里更新。
结果就是:
事情不算复杂,切来切去把人弄得很累。
Cursor 这次给 Browser 加的能力,本质上就一件事,把这些动作扔给 Agent 处理,让你留点脑容量给「该怎么写」这种问题。这个我感觉比 browser mcp 又更进了一步。
让 Agent 真的去点浏览器
在 Browser 这一页里,它列了 Agent 能直接操控的东西,大概分几类:
导航和点击,输入和滚动,再加上截图、控制台输出和网络流量。
翻译成人话就是,你可以直接让 Agent:
- • 打开一个地址,自己在页面里乱转,而不是你手动复制粘贴链接。
- • 代你点按钮、点下一步,填表单,测一轮完整流程。
- • 滚页面,把某个区域截成图,再配合文件工具丢回上下文里分析。
- • 拉控制台 log 和网络请求,帮你看有没有报错、有没有请求挂掉。
而且日志这块做了个挺聪明的小优化。
不是每次都把一长条 console 输出塞回对话里,而是先写文件,再让 Agent 用 grep 去找相关那几行,需要什么再读什么。
对你来说,一个好处是 token 不会乱飞。
另一个好处是上下文还在,只是放在文件里而已。
设计侧边栏把前端的眼睛和手合在一起
如果你做前端 UI,这块估计会很上头。
Browser 自带一个设计侧边栏,直接在 Cursor 里把当前页面元素的布局和 CSS 抓出来,让你在那边拖拖拉拉和调数值。
它能怎么用呢,案例如下:
- • 调整位置和布局,像 flex 方向、对齐方式和网格布局这些参数,在侧边栏里就能改,页面跟着动。
- • 改尺寸,用具体像素去调宽度、高度、内外边距,省得你手改 CSS 再刷新。
- • 换颜色和主题,从设计系统里挑颜色或者渐变,顺手切暗色和浅色主题看看效果。
- • 微调外观,通过滑块改阴影、不透明度和圆角,少打一点 magic number。
关键是,这些不是「玩玩预览」。
当你觉得效果差不多了,点一下应用,Agent 会把你刚才动过的东西,翻译成真正的代码改动,落到代码库里。
你也可以选多个元素,用一句自然语言描述自己想要的效果,让几个 Agent 并行去改。
代码热重载一跑,页面直接变成你刚才那句话描述的样子。
做 UI 的时候,这种体验挺接近「对着网页现场改,再自动写回源码」。
浏览器状态是跟着你的工作区走的
有时候你会发现,本地登录态总是掉来掉去,或者 Agent 每次打开都像第一次见这个站一样。
Browser 为这个事情做了个「会话持久化」。
简单理解就是,在同一个工作区里,浏览器状态是延续的:
- • Cookies 会保留,你在某个项目里登了账号,下次继续用 Agent 时还在这个登录状态。
- • localStorage 和 sessionStorage 里的东西,还在原地,不用重新初始化一遍。
- • IndexedDB 的内容也会保留,前端里存的数据不会轻易蒸发。
而且不同工作区是隔离的,等于每个项目有自己的一套「小浏览器世界」。
你切项目,登录态也不会乱串,这点很重要。
能力真正好用的几种场景
这个 Browser 页面对场景部分写得挺具体,拆开看,其实就是几类典型工作日常。
先说 Web 开发那一块。
它设计的路径是,让 Browser 和 Figma、Linear 这类工具配合,设计稿和需求都在线,Agent 在中间跑腿,把页面跑起来、调样式和对齐组件库。
无障碍这件事,很多团队嘴上说要做,真正检查时又懒得看文档。
这里直接让 Agent 帮你过一遍:
- • 看颜色对比度够不够。
- • HTML 和 ARIA 标签用得正不正常。
- • 键盘导航能不能走完流程。
- • alt 文本有没有缺的地方。
测试这块就更直接了。
你让 Agent 拿测试数据填表单、一步步点页面,顺带看响应式设计有没有崩,错误提示是不是该出来的时候没出来,控制台里有没有 JS 报错。
设计到代码这一块,更像一个「翻译工」。
让 Agent 读设计稿,提取出配色和排版,再生成对照程度很高的 HTML 和 CSS,搞不定的地方你再自己收尾。
还有一个是「根据截图调整 UI」。
你丢一个设计截图进去,让它把现在的界面和目标图做个对比,再统一调整间距、颜色和排版。
等于是帮你做一轮「抠像素但不再手抠」。
安全、控制权和企业这边的顾虑
让 Agent 去动浏览器,安全这块肯定绕不过去。
Cursor 在这个文档里,把 Browser 的安全机制讲得比较细。
先是浏览器本身是跑在一个安全的 WebView 里,由 MCP 服务器控制,整套机制过了外部安全审计。
具体到会话层面,有几道保护:
- • 每次浏览器会话开始前,生成随机令牌,Agent 需要这个才能控制浏览器。
- • 每个标签页有独立的随机 ID,避免串台。
- • 每开一次新的浏览器会话,令牌都会重置。
再往上就是「工具授权」。
默认情况下,任何浏览器操作都要你点头才跑,这个模式它称为手动审批。
你可以在 Agent 设置里改成:
- • 仅允许列表里的操作自动执行,其他还是需要你确认。
- • 或者直接全自动,所有操作立刻执行,不过它明确提醒要慎用。
再加一层是允许列表和阻止列表,这相当于给某些操作放行或者永久封禁。
设置入口在 Cursor Settings 里,属于 Chat 的 Auto-Run 配置。
对于企业管理员,还多了来源允许列表这一层。
可以限制 Agent 自动访问哪些站点,以及 MCP 工具可以在哪些域名上跑。
逻辑是这样的:
- • 自动导航只能去允许列表里的来源。
- • MCP 工具也只能对这些来源执行。
- • 你手动开网页不受限制,但一旦当前来源不在允许列表里,click、type、navigate 这些自动操作就禁用。
边界情况它也说得很直白,比如从允许的域跳到不在列表里的域,某些跳转还是会发生,只是后续操作会被限制。
意思很清楚,这是一种尽力而为的防护,而不是绝对封死所有路径。
企业启用方面,就是在控制台里把 browser features 开关打开,再配好 MCP 和来源允许列表,团队里的用户就能按你设的规则用这些功能。
最后,这东西值不值得你管一眼
如果你平时就是改改静态页面,这功能对你来说可能只是「少点几下鼠标」。
但只要你日常工作里同时要面对代码、浏览器、设计稿和测试,Browser 这套能力叠起来,意义就不一样了。
它把很多「手在忙但脑子没用上」的操作交给 Agent,
同时又给你保留了充足的可见度:你能看到它点了什么、看了什么日志、动了哪些样式。
这种组合,才是值得关注的新功能。
