Deepseek-V3 计算机使用:这是一个完全免费的 AI 代理,一句话操控浏览器(Browser Use)

大模型向量数据库机器学习

🍹 Insight Daily 🪺

Aitrainee | 公众号:AI进修生

Hi,这里是Aitrainee,欢迎阅读本期新文章。

Deepseek V3模型推出后,社区里有许多基于这个模型做的实践。

以前有一个浏览器使用代理: Browser Use ,可以控制电脑做很多事情。而最近看到一个GitHub仓库 — browser-use-webui ,是Browser Use分支而来。

它扩展了大语言模型(LLM)的支持,兼容Gemini、OpenAI、Azure、Anthropic、Deepseek和Ollama 等模型。 还提供了一个浏览器使用的Web界面,配置起来非常简单,可以在几秒钟内控制整个Web浏览器代理。

首先,克隆这个仓库到你的电脑上。


        
            

          git clone git@github.com:warmshao/browser-use-webui.git
        
      

然后,打开cursor,打开命令面板,选择python解释器,然后点击第二步,创建虚拟环境:

picture.image

picture.image

安装好依赖

picture.image

picture.image

如果是windows。那么可以选择git bash为默认终端,

picture.image

然后你每次新建终端都会默认使用这个python虚拟环境,同时git bash也方便cursor agent执行命令。

picture.image

安装依赖之后还需要安装这两个(Browser Use Python包、Playwright浏览器和相关组件)。

picture.image

完成上面步骤,环境就配置好了。

然后把环境变量配置一下,

  • • 将 .env.example 复制为 .env,并设置你的环境变量,包括 LLM 的 API 密钥:deepseek和google模型API。
  • • 如果使用你自己的浏览器:
  • • 设置 CHROME_PATH 为浏览器的可执行文件路径(例如,Windows 上为 C:\Program Files\Google\Chrome\Application\chrome.exe)。

  • • 设置 CHROME_USER_DATA 为浏览器的用户数据目录(例如,C:\Users\<YourUsername>\AppData\Local\Google\Chrome\User Data)。

picture.image

启动它:


        
            

          python webui.py --ip 127.0.0.1 --port 7788
        
      

picture.image

注意关闭所有chorme,在其他的浏览器打开这个链接:http://127.0.0.1:7788。

picture.image

打开浏览器,你将看到这些选项,你可以选择想要使用的代理类型,比如原始代理或者自定义代理。原始代理不使用任何系统提示,而自定义代理则会使用一些优化过的系统提示和功能。

picture.image

你还可以设置最大运行步骤,这决定了代理执行任务时最多可以进行多少步,默认是100步。

还有“使用Vision”选项,可以通过允许代理查看截图来提高性能,虽然这个选项在Deepseek中不可用,但在Gemini中可以使用。你还可以选择LLM提供商,如Deepseek或Gemini,并在这里输入模型名称。

对于Gemini,它默认是2.0 Flash,而对于Deepseek,你需要改成“deepseek chat”。你还可以修改LLM的Base URL和API密钥,如果不想在环境文件中设置的话。

接下来是浏览器设置,你可以选择使用你自己的浏览器,运行时是否启用无头模式,或者是否禁用安全性,还可以设置窗口的高度和宽度。

另外,代理还支持录制浏览器会话,并保存为屏幕录像,你可以稍后查看录像,并且可以更改录制路径。

picture.image

在主任务选项中,你可以输入代理需要完成的任务,并附上额外的信息。这些信息会和提示一起传给代理。

picture.image

让它告诉我们Nvidia的股票价格,发送后,你可以看到它开始工作,打开Google并搜索相关信息。

picture.image

稍等片刻,它完成了任务,这真的很棒。

浏览器代理与各种模型兼容性非常好,因为它并不依赖于模型的视觉能力。这款Web UI非常出色,整体表现很酷。

🌟 知音难求,自我修 炼亦艰, 抓住前沿技术的机遇,与我们一起成为创新的超级个体 (把握AIGC时代的个人力量)。

参考链接:
[1] https://github.com/warmshao/browser-use-webui

[2] https://www.youtube.com/watch?v=zkSCDZVRNms

0
0
0
0
关于作者
相关资源
火山引擎大规模机器学习平台架构设计与应用实践
围绕数据加速、模型分布式训练框架建设、大规模异构集群调度、模型开发过程标准化等AI工程化实践,全面分享如何以开发者的极致体验为核心,进行机器学习平台的设计与实现。
相关产品
评论
未登录
看完啦,登录分享一下感受吧~
暂无评论