大家好,我是子昕,一个干了10年的后端开发,现在在AI编程这条路上边冲边摸索,每天都被新技术追着跑。
最近又发现了一个可以操作浏览器的MCP工具--Hyperbrowser MCP。
Hyperbrowser MCP是一个强大的模型上下文协议(Model Context Protocol)服务器,它为AI助手提供了10个专业的Web交互工具,让AI具备了:
- 网页抓取和截图能力
- 网站爬虫和数据提取能力
- 浏览器自动化操作能力
- 结构化数据转换能力
- 搜索引擎集成能力
快速安装指南
准备工作
首先,你需要获取Hyperbrowser API密钥,访问 hyperbrowser.ai 并注册后会自动生成。
配置步骤
在Cursor或Claude Desktop的MCP配置文件中添加以下配置,API_KEY换成你自己的。
{
"mcpServers": {
"hyperbrowser": {
"command": "npx",
"args": ["-y", "hyperbrowser-mcp"],
"env": {
"HYPERBROWSER\_API\_KEY": "YOUR-API-KEY"
}
}
}
}
验证安装
重启MCP后,看到小绿点表示安装成功:
可以看到该MCP提供了10个强大的工具,接下来我们看看如何使用它们。
实战案例:
在Cursor或Claude Desktop中使用自然语言说出你的需求即可。
案例一:一键网页截图
想要快速获取网页截图?只需要用自然语言告诉AI:
案例二:网页内容转Markdown
需要将网页内容整理成文档?AI能够智能提取并转换格式:
AI成功将网页信息转换为Markdown文件并保存到本地,这对于内容创作者来说简直是神器!
案例三:深度项目分析(元认知案例)
这个案例特别有趣!我们让AI使用Hyperbrowser MCP来深入分析Hyperbrowser MCP本身的功能:
对比效果:
- 没有MCP:AI只能查询网页,复述官方说明,信息浅显
- 使用MCP:AI深入分析源码,提供详细的技术解析
这就是MCP的威力所在!
10大核心工具详解
基于AI的深度分析,以下是每个工具的详细功能:
1. scrape_webpage - 网页抓取工具
- 功能:从单个网页提取内容,支持多种输出格式
- 支持格式:
- markdown - 将网页转换为Markdown格式
- html - 原始HTML内容
- links - 提取页面中的所有链接
- screenshot - 截取网页截图
- 特点:可配置浏览器行为选项,适合提取文本内容、HTML结构、收集链接或截图
2. crawl_webpages - 网站爬虫工具
- 功能:从起始URL开始系统性地爬取多个关联页面
- 特性:
- 可设置最大爬取页面数(1-100页)
- 支持跟随页面链接
- 可忽略站点地图
- 支持多种输出格式(同scrape_webpage)
- 用途:大规模数据收集、内容索引、网站地图构建
3. extract_structured_data - 结构化数据提取工具
- 功能:将混乱的HTML转换为结构化JSON数据
- 特性:
- 支持多个URL同时处理
- 使用自定义prompt指导提取
- 基于JSON Schema定义输出结构
- 支持通配符URL(如 https://example.com/*)
- 用途:从网页中提取特定格式的数据,如产品信息、联系人等
4. search_with_bing - Bing搜索工具
- 功能:使用Bing搜索引擎进行网络搜索
- 参数:
- 搜索查询字符串
- 结果数量(1-50个,默认10个)
- 用途:网络信息检索和搜索
5. browser_use_agent - 轻量级浏览器自动化代理
- 功能:快速、高效、低成本的浏览器任务自动化
- 特点:
- 优化了速度和效率
- 需要明确详细的指令
- 适合简单直接的自动化任务
- 最佳用例:
- 明确定义的注册和登录流程
- 清晰指导的Web应用导航
- 结构化的逐步网页抓取
- 通过明确指定的浏览器交互提取数据
6. openai_computer_use_agent - OpenAI通用自动化代理
- 功能:使用OpenAI的CUA(Computer Use Agent)模型进行通用浏览器自动化
- 特点:
- 平衡的性能和可靠性
- 适合中等复杂度的交互
- 能处理常见的Web任务和工作流
- 最佳用例:
- 标准的多步注册或表单提交
- 导航典型的Web应用程序
- 进行结构化的Web研究任务
- 通过交互式Web过程提取数据
7. claude_computer_use_agent - Claude计算机使用代理
- 功能:使用Anthropic Claude模型执行复杂浏览器任务
- 特点:
- 具有高级推理能力
- 专门处理复杂、细致或高度依赖上下文的Web交互
- 人类般的交互和详细的上下文感知
- 最佳用例:
- 需要推理的多步骤流程(如详细注册或入职)
- 与高级Web应用程序的智能交互
- 进行有复杂条件的深度研究
- 从动态或交互式网站提取信息
8. create_profile - 创建配置文件工具
- 功能:创建新的持久化Hyperbrowser配置文件
- 用途:为重复性任务创建可重用的浏览器环境
9. delete_profile - 删除配置文件工具
- 功能:删除现有的持久化Hyperbrowser配置文件
- 参数:配置文件ID
10. list_profiles - 列出配置文件工具
- 功能:列出现有的持久化Hyperbrowser配置文件
- 支持:分页查询(可选的页码和每页数量参数)
通用特性
会话选项(Session Options):
- 代理使用控制
- 隐身模式
- 验证码解决
- Cookie接受处理
- 持久化配置文件支持
输出格式支持:
- 文本内容(Markdown/HTML)
- 图像(截图)
- 链接资源
- 结构化JSON数据
写在最后
这个MCP服务器为AI代理提供了完整的Web交互能力,从简单的页面抓取到复杂的浏览器自动化任务,适合各种Web数据提取和自动化需求。
如果你经常需要:
- 做竞品分析和市场调研
- 收集整理网络资料
- 监控网站数据变化
- 自动化测试验证
那我强烈建议试试这个工具。
项目地址:https://github.com/hyperbrowserai/mcp
对了,我建了一个 AI 编程交流群,感兴趣可以后台加我微信进群。
觉得有用就点个关注呗,我会继续用我这半吊子水平为大家带来更多AI编程工具的第一手体验~
「点赞、转发、在看」
和大家一起看
