Deepseek-V3 计算机使用：这是一个完全免费的 AI 代理，一句话操控浏览器（Browser Use） - 文章 - 开发者社区

🍹 Insight Daily 🪺

Hi，这里是Aitrainee，欢迎阅读本期新文章。

Deepseek V3模型推出后，社区里有许多基于这个模型做的实践。

以前有一个浏览器使用代理： Browser Use ，可以控制电脑做很多事情。而最近看到一个GitHub仓库 — browser-use-webui ，是Browser Use分支而来。

它扩展了大语言模型（LLM）的支持，兼容Gemini、OpenAI、Azure、Anthropic、Deepseek和Ollama 等模型。还提供了一个浏览器使用的Web界面，配置起来非常简单，可以在几秒钟内控制整个Web浏览器代理。

首先，克隆这个仓库到你的电脑上。


        
            

          git clone git@github.com:warmshao/browser-use-webui.git

然后，打开cursor，打开命令面板，选择python解释器，然后点击第二步，创建虚拟环境：

picture.image

安装好依赖

picture.image

如果是windows。那么可以选择git bash为默认终端，

picture.image

然后你每次新建终端都会默认使用这个python虚拟环境，同时git bash也方便cursor agent执行命令。

picture.image

安装依赖之后还需要安装这两个（Browser Use Python包、Playwright浏览器和相关组件）。

picture.image

完成上面步骤，环境就配置好了。

然后把环境变量配置一下，

• 设置 CHROME_PATH 为浏览器的可执行文件路径（例如，Windows 上为 C:\Program Files\Google\Chrome\Application\chrome.exe）。
• 设置 CHROME_USER_DATA 为浏览器的用户数据目录（例如，C:\Users\<YourUsername>\AppData\Local\Google\Chrome\User Data）。

picture.image

启动它：


        
            

          python webui.py --ip 127.0.0.1 --port 7788

picture.image

注意关闭所有chorme，在其他的浏览器打开这个链接：http://127.0.0.1:7788。

picture.image

打开浏览器，你将看到这些选项，你可以选择想要使用的代理类型，比如原始代理或者自定义代理。原始代理不使用任何系统提示，而自定义代理则会使用一些优化过的系统提示和功能。

picture.image

你还可以设置最大运行步骤，这决定了代理执行任务时最多可以进行多少步，默认是100步。

还有“使用Vision”选项，可以通过允许代理查看截图来提高性能，虽然这个选项在Deepseek中不可用，但在Gemini中可以使用。你还可以选择LLM提供商，如Deepseek或Gemini，并在这里输入模型名称。

对于Gemini，它默认是2.0 Flash，而对于Deepseek，你需要改成“deepseek chat”。你还可以修改LLM的Base URL和API密钥，如果不想在环境文件中设置的话。

接下来是浏览器设置，你可以选择使用你自己的浏览器，运行时是否启用无头模式，或者是否禁用安全性，还可以设置窗口的高度和宽度。

另外，代理还支持录制浏览器会话，并保存为屏幕录像，你可以稍后查看录像，并且可以更改录制路径。

picture.image

在主任务选项中，你可以输入代理需要完成的任务，并附上额外的信息。这些信息会和提示一起传给代理。

picture.image

让它告诉我们Nvidia的股票价格，发送后，你可以看到它开始工作，打开Google并搜索相关信息。

picture.image

稍等片刻，它完成了任务，这真的很棒。

浏览器代理与各种模型兼容性非常好，因为它并不依赖于模型的视觉能力。这款Web UI非常出色，整体表现很酷。

🌟 知音难求，自我修 炼亦艰，抓住前沿技术的机遇，与我们一起成为创新的超级个体（把握AIGC时代的个人力量）。