1年多时间狂飙8万Star！别再折腾Selenium了，这个AI神器能像真人一样接管浏览器 - 文章 - 开发者社区

大家好，我是小智，专注 AI 工具，AI 智能体和编程提效

痛点分析

写过网页自动化脚本的朋友肯定懂那种崩溃的感觉。昨天 Selenium 或 Playwright 跑得好好的，今天前端老哥改了个 class 名字，脚本直接全线罢工。遇到动态加载或者反爬验证码，硬编码的逻辑更是显得笨重无比。

传统框架就像是“瞎子”，它们只认代码，不认界面。它们没法像人一样去“看”网页，去判断那个蓝色的按钮到底是不是“登录”。

这让我开始寻找一种新的方式，让机器像人一样去“看”网页、去“理解”意图、去“决定”操作。其实早在去年 10 月份 Browser-Use 刚发布的时候，我就写过一篇文章介绍它 11K+ Star！2025年最火AI+RPA网页操作神器那时候它才 1 万多颗星，没想到如今再看，Star 数已经呈指数级增长，一路飙升到了 82,737 颗星！今天咱们就来深度聊聊这个开源神器。

picture.image

它是干什么的？

简单来说，Browser-Use 是一个开源的 AI 浏览器自动化框架。它能让语言模型像真人一样去操作网页浏览器。不管是填表单、网购还是查资料，它都能搞定。

在现在这个 AI 时代，怎么让 AI 和网上的应用交互是个大问题。传统的 API 方案有两个硬伤，一是绝大多数网站根本不提供 API，二是网站 UI 老变，维护起来特别头疼。

Browser-Use 给出的解法很直接。它不走 API，直接让 AI 代理操作浏览器。这带来的好处显而易见，它可以访问网上的任何网站，而且 UI 变了它也能自己适应，完全不需要你去维护那一套死板的集成代码。

这个项目在 GitHub 上已经拿了 82,737 颗星，热度相当高。

它能做些什么？

Browser-Use 优化了对多种大模型的支持，官方推荐的 ChatBrowserUse() 模型速度很快，准确率也很高。当然，你也可以用 Claude 3.5 Sonnet、Gemini 或者是本地的 Ollama。

picture.image

优势

我在实际使用中，发现它主要解决这几类问题：

1. 表单填写。比如自动投简历、填各种注册表单。
2. 在线购物。它可以帮你自动搜商品、加购物车、甚至下单。
3. 信息查询。跨网站搜集信息，做数据抓取很方便。
4. 流程自动化。任何重复性的点点点操作，都能交给它。

你可以通过 Python 写代码调用它，也可以用 CLI 命令行快速跑测试。如果你用 Claude Code，它还提供了 Skill 集成。

上手实战

咱们言归正传，看看怎么跑起来。我这里用 uv 这个包管理器，速度比较快（记得 Python 版本要在 3.11 以上）。

uv init && uv add browser-use && uv sync

如果你电脑上没装 Chromium，可以跑一下这个：

uvx browser-use install

接着配置一下 API Key。建一个 .env 文件：

# 推荐用官方的 Browser Use Cloud
BROWSER_USE_API_KEY=your-key

# 或者用其他大模型的 Key
GOOGLE_API_KEY=your-key
ANTHROPIC_API_KEY=your-key

写个最简单的 Python 脚本跑一下。比如让它去查查 Browser-Use 仓库有多少颗星：

from browser_use import Agent, Browser, ChatBrowserUse
import asyncio

async def main():
    browser = Browser()

    agent = Agent(
        task="Find the number of stars of the browser-use repo",
        llm=ChatBrowserUse(),
        browser=browser,
    )

    result = await agent.run()
    print(f"Result: {result}")

if __name__ == "__main__":
    asyncio.run(main())

如果你懒得自己写，直接用命令行生成模板：

uvx browser-use init --template default

看看实际效果

这里放几个官方的演示，感受一下。

这是自动填求职申请的，完全不需要你手动敲字。

picture.image

Form Filling Demo

让它去 Instacart 上按购物清单买东西。

picture.image

购物买东西

当个个人助手，帮你找组装电脑的零件。

picture.image

个人助手

如果你不想写代码，直接在终端敲命令也行。比如打开网页、点击元素、输入文字，都可以一行命令搞定。

browser-use open https://example.com    # 打开网页
browser-use state                       # 查看可点击元素
browser-use click 5                     # 点击第 5 个元素
browser-use type "Hello"                # 输入文本
browser-use screenshot page.png         # 截图
browser-use close                       # 关闭浏览器

它是怎么工作的？

深入了解一下它的底层逻辑。Browser-Use Agent 的执行过程其实就是一个循环。

picture.image

执行流程

首先是感知。Agent 会去抓取当前网页的状态，包括 HTML、元素坐标，甚至截图。
然后是推理。大模型拿到这些信息后，结合你的任务，思考下一步该干嘛。
接着是行动。决定好之后，就去执行点击、输入或者滚动等操作。
最后是反馈。拿操作后的结果，如果没完成任务，就继续循环。

这个“看”网页、做决策、再行动的闭环，就是它能适应 UI 变化的核心原因。

它支持的浏览器操作也很全，基础的导航、点击、输入不用说，连 Cookie 和 Session 管理，还有执行自定义的 JavaScript 都支持。

在浏览器配置上，它给了很大的自由度。你可以用本地的浏览器，也可以连云端的隐身浏览器。

from browser_use import Browser

# 本地浏览器
browser = Browser()

# Cloud 浏览器（防反爬）
browser = Browser(use_cloud=True)

# 还能自定义保存会话状态
browser = Browser(
    headless=False,
    disable_security=False,
    storage_state='state.json'
)

最让我觉得好用的是它的工具扩展能力。如果浏览器操作满足不了需求，比如你想发个邮件，可以自己写个 Python 函数挂载进去。

from browser_use import Tools

tools = Tools()

@tools.action(description='执行自定义操作')
def my_custom_tool(param: str) -> str:
    return f"结果: {param}"

agent = Agent(
    task="你的任务",
    tools=tools,
    llm=llm,
    browser=browser,
)

怎么部署？

目前主要有两种方式。

picture.image

成本对比

第一种是自己本地部署。这种方式完全免费，数据也在自己电脑上，隐私有保障。缺点就是占内存，而且遇到强力的反爬机制容易抓瞎。适合自己开发或者小规模测试。

from browser_use import Agent, Browser, ChatBrowserUse

agent = Agent(
    task="Your task",
    llm=ChatBrowserUse(),  # 本地 LLM
    browser=Browser()       # 本地浏览器
)

第二种是接他们的 Browser Use Cloud。这个适合跑生产环境，高并发，而且自带反检测能力。按需付费，省得自己维护基础设施。

from browser_use import Agent, Browser, ChatBrowserUse

browser = Browser(use_cloud=True)  # 使用云端浏览器

agent = Agent(
    task="Your task",
    llm=ChatBrowserUse(),
    browser=browser
)

大家常问的问题

在折腾的过程中，我总结了几个大家比较关心的问题。

关于模型怎么选，官方优化的 ChatBrowserUse() 确实好用，速度快，成本也不算高。

登录认证这块，推荐用保存配置文件的方式，跑一次保存下来，后面 Agent 就能直接用了。

遇到 CAPTCHA 验证码，本地浏览器基本没戏，老老实实用 Cloud 版本的反检测机制。

如果要在生产环境跑，记得加上重试逻辑和超时控制，保证稳定性。

总结一下

深度体验下来，Browser-Use 给我的感觉不仅仅是惊艳，更多的是一种“时代变了”的震撼。它让我看到了网页自动化未来的方向：不再是死磕 DOM 节点和各种选择器，而是真正意义上的“意图驱动”。

随着大模型多模态能力和推理速度的进一步提升，像 Selenium 这种传统的“硬编码”自动化框架，在未来极有可能会被边缘化甚至淘汰。取而代之的，必将是这种能“看懂”界面、能自己做决策的 AI 接管框架。它彻底打破了人与机器在网页交互上的隔阂。

如果你平时也被那些脆弱的自动化脚本折磨得不轻，强烈建议你去试试 Browser-Use。先在本地跑个 demo 感受一下这种降维打击的快乐。

项目地址：github.com/browser-use/browser-use

进群交流 & 领取福利

关于如何使用 Claude Code 和 OpenClaw 的各种玩法，小智建了一个学习交流群，欢迎大家一起沟通玩法心得。

如果本文对您有帮助，也请帮忙点个赞👍 + 在看哈！❤️关注小智AI指南公众号，AI 路上不迷路