一款自托管AI网页数据抓取工具 Scraperr！解锁数据抓取新体验！ - 文章 - 开发者社区

picture.image

虽然市面上有许多数据抓取工具，但其中大多收费高昂且依赖外部服务器，带来一定的数据隐私风险。

为此，开源的 Scraperr 工具应运而生！这是一款自托管的网页数据抓取工具，既可以精准定位需要的网页元素，又为数据存储和私密性提供了保障。

Scraperr 提供了非常灵活的抓取方式——通过指定 XPath 抓取特定元素，配合上直观的可视化界面和支持批量操作的特性，让我们从数据抓取到分析都更加得心应手。

更妙的是，抓取的结果还可以和 AI 对话结合，使数据不再是冷冰冰的表格，而是直接产生结果。

picture.image

Scraperr 集成了许多强大的数据抓取和处理功能，从简单的网页数据采集到复杂的批量抓取任务管理，无一不支持。以下是它的主要功能：

• XPath 精确抓取 ：通过指定 XPath，精准定位并抓取网页中的特定元素。这种方式非常灵活，适用于各种复杂的页面结构，甚至是动态加载的内容。
• 支持批量提交 URL，导出结果至 Excel ：如果需要抓取多个页面的数据，Scraperr 提供了批量提交 URL 的功能，可以一次性抓取多个页面的数据并导出为 Excel 文件，方便后续数据处理与分析。
• 结合 AI 对话处理 ：支持与 Ollama 和 OpenAI API 集成，将抓取结果与 AI 对话结合。抓取到的数据可以立即通过 AI 进行解析、整理或生成分析结果，这让数据不仅可以“读”，还可以智能地“分析” 。
• 自定义请求头 & 多页面抓取 ：在进行数据抓取时，支持用户自定义请求头，以便绕过某些网站的防护措施。同时，它支持在同一网站下批量抓取所有相关页面的内容，非常适合大规模数据采集的需求。
• 任务管理与日志查看 ：允许用户重跑抓取任务，并支持查看运行日志，帮助用户及时发现问题并重新抓取数据，保证数据采集的完整性和连续性。

picture.image

Scraperr 作为一款自托管工具，部署和安装过程非常便捷。以下是简单的安装步骤：

1、准备服务器环境

Scraperr 支持在本地或远程服务器上自托管，因此你可以选择任意适合的环境进行安装，只要能运行 Docker 即可。

2、下载并运行 Scraperr

克隆 Scraperr 的 GitHub 仓库，然后通过 Docker 运行。


 
 
 
 
   
git clone https://github.com/jaypyles/Scraperr.git  
cd Scraperr  
docker-compose up -d

在 docker-compose.yml 中设置环境变量和标签。主要是做MongoDB数据库配置和HTTP服务的映射。

Deploy 部署


 
 
 
 
   
make up

3、配置抓取规则与 XPath

启动后，通过 Web 界面配置所需的抓取规则。

提交抓取作业的第一步是输入您要抓取的网站的 URL。当您输入 URL 时，您将看到一个表格，您可以在其中填写要抓取的数据的选择器。您可以命名元素并为要抓取的元素提供 xpath。

picture.image

点击提交后，您的作业将被添加到队列中，并且系统将提示您转到作业表。

picture.image

从这里将显示作业的状态，一旦标记为completed，您就可以通过点击“下载”按钮来查看结果。

picture.image

4、集成 AI 解析

最后，就可以将抓取结果与 Ollama 或 OpenAI API 结合，你可以在设置中连接相应的 API 密钥，以便自动解析抓取的数据，快速获取分析结果。

picture.image

Scraperr 的功能远远不止抓取数据这么简单，它的自托管、AI 对话结合等特性，打造了一个从数据采集到分析的闭环。不论是新手还是资深数据分析师，都可以利用 Scraperr 实现个性化的数据抓取和信息洞见。

picture.image

picture.image

如果本文对您有帮助，也请帮忙点个赞👍 + 在看哈！❤️

在看你就赞赞我！

picture.image