🍹 Insight Daily 🪺
Aitrainee | 公众号:AI进修生
Hi,这里是Aitrainee,欢迎阅读本期新文章。
Deepseek V3模型推出后,社区里有许多基于这个模型做的实践。
以前有一个浏览器使用代理: Browser Use ,可以控制电脑做很多事情。而最近看到一个GitHub仓库 — browser-use-webui ,是Browser Use分支而来。
它扩展了大语言模型(LLM)的支持,兼容Gemini、OpenAI、Azure、Anthropic、Deepseek和Ollama 等模型。 还提供了一个浏览器使用的Web界面,配置起来非常简单,可以在几秒钟内控制整个Web浏览器代理。
首先,克隆这个仓库到你的电脑上。
git clone git@github.com:warmshao/browser-use-webui.git
然后,打开cursor,打开命令面板,选择python解释器,然后点击第二步,创建虚拟环境:
安装好依赖
如果是windows。那么可以选择git bash为默认终端,
然后你每次新建终端都会默认使用这个python虚拟环境,同时git bash也方便cursor agent执行命令。
安装依赖之后还需要安装这两个(Browser Use Python包、Playwright浏览器和相关组件)。
完成上面步骤,环境就配置好了。
然后把环境变量配置一下,
- • 将
.env.example
复制为.env
,并设置你的环境变量,包括 LLM 的 API 密钥:deepseek和google模型API。 - • 如果使用你自己的浏览器:
-
• 设置
CHROME_PATH
为浏览器的可执行文件路径(例如,Windows 上为C:\Program Files\Google\Chrome\Application\chrome.exe
)。 -
• 设置
CHROME_USER_DATA
为浏览器的用户数据目录(例如,C:\Users\<YourUsername>\AppData\Local\Google\Chrome\User Data
)。
启动它:
python webui.py --ip 127.0.0.1 --port 7788
注意关闭所有chorme,在其他的浏览器打开这个链接:http://127.0.0.1:7788。
打开浏览器,你将看到这些选项,你可以选择想要使用的代理类型,比如原始代理或者自定义代理。原始代理不使用任何系统提示,而自定义代理则会使用一些优化过的系统提示和功能。
你还可以设置最大运行步骤,这决定了代理执行任务时最多可以进行多少步,默认是100步。
还有“使用Vision”选项,可以通过允许代理查看截图来提高性能,虽然这个选项在Deepseek中不可用,但在Gemini中可以使用。你还可以选择LLM提供商,如Deepseek或Gemini,并在这里输入模型名称。
对于Gemini,它默认是2.0 Flash,而对于Deepseek,你需要改成“deepseek chat”。你还可以修改LLM的Base URL和API密钥,如果不想在环境文件中设置的话。
接下来是浏览器设置,你可以选择使用你自己的浏览器,运行时是否启用无头模式,或者是否禁用安全性,还可以设置窗口的高度和宽度。
另外,代理还支持录制浏览器会话,并保存为屏幕录像,你可以稍后查看录像,并且可以更改录制路径。
在主任务选项中,你可以输入代理需要完成的任务,并附上额外的信息。这些信息会和提示一起传给代理。
让它告诉我们Nvidia的股票价格,发送后,你可以看到它开始工作,打开Google并搜索相关信息。
稍等片刻,它完成了任务,这真的很棒。
浏览器代理与各种模型兼容性非常好,因为它并不依赖于模型的视觉能力。这款Web UI非常出色,整体表现很酷。
🌟 知音难求,自我修 炼亦艰, 抓住前沿技术的机遇,与我们一起成为创新的超级个体 (把握AIGC时代的个人力量)。