虽然市面上有许多数据抓取工具,但其中大多收费高昂且依赖外部服务器,带来一定的数据隐私风险。
为此,开源的 Scraperr 工具应运而生!这是一款自托管的网页数据抓取工具,既可以精准定位需要的网页元素,又为数据存储和私密性提供了保障。
Scraperr 提供了非常灵活的抓取方式——通过指定 XPath 抓取特定元素,配合上直观的可视化界面和支持批量操作的特性,让我们从数据抓取到分析都更加得心应手。
更妙的是,抓取的结果还可以和 AI 对话结合,使数据不再是冷冰冰的表格,而是直接产生结果。
Scraperr 主要功能
Scraperr 集成了许多强大的数据抓取和处理功能,从简单的网页数据采集到复杂的批量抓取任务管理,无一不支持。以下是它的主要功能:
- • XPath 精确抓取 :通过指定 XPath,精准定位并抓取网页中的特定元素。这种方式非常灵活,适用于各种复杂的页面结构,甚至是动态加载的内容。
- • 支持批量提交 URL,导出结果至 Excel :如果需要抓取多个页面的数据,Scraperr 提供了批量提交 URL 的功能,可以一次性抓取多个页面的数据并导出为 Excel 文件,方便后续数据处理与分析。
- • 结合 AI 对话处理 :支持与 Ollama 和 OpenAI API 集成,将抓取结果与 AI 对话结合。抓取到的数据可以立即通过 AI 进行解析、整理或生成分析结果,这让数据不仅可以“读”,还可以智能地“分析” 。
- • 自定义请求头 & 多页面抓取 :在进行数据抓取时,支持用户自定义请求头,以便绕过某些网站的防护措施。同时,它支持在同一网站下批量抓取所有相关页面的内容,非常适合大规模数据采集的需求。
- • 任务管理与日志查看 :允许用户重跑抓取任务,并支持查看运行日志,帮助用户及时发现问题并重新抓取数据,保证数据采集的完整性和连续性。
安装与使用指南
Scraperr 作为一款自托管工具,部署和安装过程非常便捷。以下是简单的安装步骤:
1、准备服务器环境
Scraperr 支持在本地或远程服务器上自托管,因此你可以选择任意适合的环境进行安装,只要能运行 Docker 即可。
2、下载并运行 Scraperr
克隆 Scraperr 的 GitHub 仓库,然后通过 Docker 运行。
git clone https://github.com/jaypyles/Scraperr.git
cd Scraperr
docker-compose up -d
在 docker-compose.yml 中设置环境变量和标签。主要是做MongoDB数据库配置和HTTP服务的映射。
Deploy 部署
make up
3、配置抓取规则与 XPath
启动后,通过 Web 界面配置所需的抓取规则。
提交抓取作业的第一步是输入您要抓取的网站的 URL。当您输入 URL 时,您将看到一个表格,您可以在其中填写要抓取的数据的选择器。您可以命名元素并为要抓取的元素提供 xpath。
点击提交后,您的作业将被添加到队列中,并且系统将提示您转到作业表。
从这里将显示作业的状态,一旦标记为completed,您就可以通过点击“下载”按钮来查看结果。
4、集成 AI 解析
最后,就可以将抓取结果与 Ollama 或 OpenAI API 结合,你可以在设置中连接相应的 API 密钥,以便自动解析抓取的数据,快速获取分析结果。
结语
Scraperr 的功能远远不止抓取数据这么简单,它的自托管、AI 对话结合等特性,打造了一个从数据采集到分析的闭环。不论是新手还是资深数据分析师,都可以利用 Scraperr 实现个性化的数据抓取和信息洞见。
GitHub 地址:https://github.com/jaypyles/Scraperr
● 新一代开源语音库CoQui TTS冲到了GitHub 20.5k Star
● 四款国内外远程桌面软件横测:ToDesk、向日葵、TeamViewer、AnyDesk
如果本文对您有帮助,也请帮忙点个 赞👍 + 在看 哈!❤️
在看你就赞赞我!