1年多时间狂飙8万Star!别再折腾Selenium了,这个AI神器能像真人一样接管浏览器

大家好,我是小智,专注 AI 工具,AI 智能体和编程提效

痛点分析

写过网页自动化脚本的朋友肯定懂那种崩溃的感觉。昨天 Selenium 或 Playwright 跑得好好的,今天前端老哥改了个 class 名字,脚本直接全线罢工。遇到动态加载或者反爬验证码,硬编码的逻辑更是显得笨重无比。

传统框架就像是“瞎子”,它们只认代码,不认界面。它们没法像人一样去“看”网页,去判断那个蓝色的按钮到底是不是“登录”。

这让我开始寻找一种新的方式,让机器像人一样去“看”网页、去“理解”意图、去“决定”操作。其实早在去年 10 月份 Browser-Use 刚发布的时候,我就写过一篇文章介绍它 11K+ Star!2025年最火AI+RPA网页操作神器 那时候它才 1 万多颗星,没想到如今再看,Star 数已经呈指数级增长,一路飙升到了 82,737 颗星!今天咱们就来深度聊聊这个开源神器。

picture.image

它是干什么的?

简单来说,Browser-Use 是一个开源的 AI 浏览器自动化框架。它能让语言模型像真人一样去操作网页浏览器。不管是填表单、网购还是查资料,它都能搞定。

在现在这个 AI 时代,怎么让 AI 和网上的应用交互是个大问题。传统的 API 方案有两个硬伤,一是绝大多数网站根本不提供 API,二是网站 UI 老变,维护起来特别头疼。

Browser-Use 给出的解法很直接。它不走 API,直接让 AI 代理操作浏览器。这带来的好处显而易见,它可以访问网上的任何网站,而且 UI 变了它也能自己适应,完全不需要你去维护那一套死板的集成代码。

这个项目在 GitHub 上已经拿了 82,737 颗星,热度相当高。

它能做些什么?

Browser-Use 优化了对多种大模型的支持,官方推荐的 ChatBrowserUse() 模型速度很快,准确率也很高。当然,你也可以用 Claude 3.5 Sonnet、Gemini 或者是本地的 Ollama。

picture.image

优势

我在实际使用中,发现它主要解决这几类问题:

  1. 1. 表单填写。比如自动投简历、填各种注册表单。
  2. 2. 在线购物。它可以帮你自动搜商品、加购物车、甚至下单。
  3. 3. 信息查询。跨网站搜集信息,做数据抓取很方便。
  4. 4. 流程自动化。任何重复性的点点点操作,都能交给它。

你可以通过 Python 写代码调用它,也可以用 CLI 命令行快速跑测试。如果你用 Claude Code,它还提供了 Skill 集成。

上手实战

咱们言归正传,看看怎么跑起来。我这里用 uv 这个包管理器,速度比较快(记得 Python 版本要在 3.11 以上)。

uv init && uv add browser-use && uv sync

如果你电脑上没装 Chromium,可以跑一下这个:

uvx browser-use install

接着配置一下 API Key。建一个 .env 文件:

# 推荐用官方的 Browser Use Cloud
BROWSER_USE_API_KEY=your-key

# 或者用其他大模型的 Key
GOOGLE_API_KEY=your-key
ANTHROPIC_API_KEY=your-key

写个最简单的 Python 脚本跑一下。比如让它去查查 Browser-Use 仓库有多少颗星:

from browser_use import Agent, Browser, ChatBrowserUse
import asyncio

async def main():
    browser = Browser()

    agent = Agent(
        task="Find the number of stars of the browser-use repo",
        llm=ChatBrowserUse(),
        browser=browser,
    )

    result = await agent.run()
    print(f"Result: {result}")

if __name__ == "__main__":
    asyncio.run(main())

如果你懒得自己写,直接用命令行生成模板:

uvx browser-use init --template default

看看实际效果

这里放几个官方的演示,感受一下。

这是自动填求职申请的,完全不需要你手动敲字。

picture.image

Form Filling Demo

让它去 Instacart 上按购物清单买东西。

picture.image

购物买东西

当个个人助手,帮你找组装电脑的零件。

picture.image

个人助手

如果你不想写代码,直接在终端敲命令也行。比如打开网页、点击元素、输入文字,都可以一行命令搞定。

browser-use open https://example.com    # 打开网页
browser-use state                       # 查看可点击元素
browser-use click 5                     # 点击第 5 个元素
browser-use type "Hello"                # 输入文本
browser-use screenshot page.png         # 截图
browser-use close                       # 关闭浏览器

它是怎么工作的?

深入了解一下它的底层逻辑。Browser-Use Agent 的执行过程其实就是一个循环。

picture.image

执行流程

首先是感知。Agent 会去抓取当前网页的状态,包括 HTML、元素坐标,甚至截图。
然后是推理。大模型拿到这些信息后,结合你的任务,思考下一步该干嘛。
接着是行动。决定好之后,就去执行点击、输入或者滚动等操作。
最后是反馈。拿操作后的结果,如果没完成任务,就继续循环。

这个“看”网页、做决策、再行动的闭环,就是它能适应 UI 变化的核心原因。

它支持的浏览器操作也很全,基础的导航、点击、输入不用说,连 Cookie 和 Session 管理,还有执行自定义的 JavaScript 都支持。

在浏览器配置上,它给了很大的自由度。你可以用本地的浏览器,也可以连云端的隐身浏览器。

from browser_use import Browser

# 本地浏览器
browser = Browser()

# Cloud 浏览器(防反爬)
browser = Browser(use_cloud=True)

# 还能自定义保存会话状态
browser = Browser(
    headless=False,
    disable_security=False,
    storage_state='state.json'
)

最让我觉得好用的是它的工具扩展能力。如果浏览器操作满足不了需求,比如你想发个邮件,可以自己写个 Python 函数挂载进去。

from browser_use import Tools

tools = Tools()

@tools.action(description='执行自定义操作')
def my_custom_tool(param: str) -> str:
    return f"结果: {param}"

agent = Agent(
    task="你的任务",
    tools=tools,
    llm=llm,
    browser=browser,
)

怎么部署?

目前主要有两种方式。

picture.image

成本对比

第一种是自己本地部署。这种方式完全免费,数据也在自己电脑上,隐私有保障。缺点就是占内存,而且遇到强力的反爬机制容易抓瞎。适合自己开发或者小规模测试。

from browser_use import Agent, Browser, ChatBrowserUse

agent = Agent(
    task="Your task",
    llm=ChatBrowserUse(),  # 本地 LLM
    browser=Browser()       # 本地浏览器
)

第二种是接他们的 Browser Use Cloud。这个适合跑生产环境,高并发,而且自带反检测能力。按需付费,省得自己维护基础设施。

from browser_use import Agent, Browser, ChatBrowserUse

browser = Browser(use_cloud=True)  # 使用云端浏览器

agent = Agent(
    task="Your task",
    llm=ChatBrowserUse(),
    browser=browser
)

大家常问的问题

在折腾的过程中,我总结了几个大家比较关心的问题。

关于模型怎么选,官方优化的 ChatBrowserUse() 确实好用,速度快,成本也不算高。

登录认证这块,推荐用保存配置文件的方式,跑一次保存下来,后面 Agent 就能直接用了。

遇到 CAPTCHA 验证码,本地浏览器基本没戏,老老实实用 Cloud 版本的反检测机制。

如果要在生产环境跑,记得加上重试逻辑和超时控制,保证稳定性。

总结一下

深度体验下来,Browser-Use 给我的感觉不仅仅是惊艳,更多的是一种“时代变了”的震撼。它让我看到了网页自动化未来的方向:不再是死磕 DOM 节点和各种选择器,而是真正意义上的“意图驱动”。

随着大模型多模态能力和推理速度的进一步提升,像 Selenium 这种传统的“硬编码”自动化框架,在未来极有可能会被边缘化甚至淘汰。取而代之的,必将是这种能“看懂”界面、能自己做决策的 AI 接管框架。它彻底打破了人与机器在网页交互上的隔阂。

如果你平时也被那些脆弱的自动化脚本折磨得不轻,强烈建议你去试试 Browser-Use。先在本地跑个 demo 感受一下这种降维打击的快乐。

项目地址github.com/browser-use/browser-use

进群交流 & 领取福利

关于如何使用 Claude Code 和 OpenClaw 的各种玩法,小智建了一个学习交流群,欢迎大家一起沟通玩法心得。

如果本文对您有帮助,也请帮忙点个 赞👍 + 在看 哈!❤️关注小智AI指南公众号,AI 路上不迷路

0
0
0
0
评论
未登录
暂无评论