一款自托管AI网页数据抓取工具 Scraperr!解锁数据抓取新体验!

大数据机器学习容器

picture.image

虽然市面上有许多数据抓取工具,但其中大多收费高昂且依赖外部服务器,带来一定的数据隐私风险。

为此,开源的 Scraperr 工具应运而生!这是一款自托管的网页数据抓取工具,既可以精准定位需要的网页元素,又为数据存储和私密性提供了保障。

Scraperr 提供了非常灵活的抓取方式——通过指定 XPath 抓取特定元素,配合上直观的可视化界面和支持批量操作的特性,让我们从数据抓取到分析都更加得心应手。

更妙的是,抓取的结果还可以和 AI 对话结合,使数据不再是冷冰冰的表格,而是直接产生结果。

picture.image

Scraperr 主要功能

Scraperr 集成了许多强大的数据抓取和处理功能,从简单的网页数据采集到复杂的批量抓取任务管理,无一不支持。以下是它的主要功能:

  • XPath 精确抓取 :通过指定 XPath,精准定位并抓取网页中的特定元素。这种方式非常灵活,适用于各种复杂的页面结构,甚至是动态加载的内容。
  • 支持批量提交 URL,导出结果至 Excel :如果需要抓取多个页面的数据,Scraperr 提供了批量提交 URL 的功能,可以一次性抓取多个页面的数据并导出为 Excel 文件,方便后续数据处理与分析。
  • 结合 AI 对话处理 :支持与 Ollama 和 OpenAI API 集成,将抓取结果与 AI 对话结合。抓取到的数据可以立即通过 AI 进行解析、整理或生成分析结果,这让数据不仅可以“读”,还可以智能地“分析”
  • 自定义请求头 & 多页面抓取 :在进行数据抓取时,支持用户自定义请求头,以便绕过某些网站的防护措施。同时,它支持在同一网站下批量抓取所有相关页面的内容,非常适合大规模数据采集的需求。
  • 任务管理与日志查看 :允许用户重跑抓取任务,并支持查看运行日志,帮助用户及时发现问题并重新抓取数据,保证数据采集的完整性和连续性。

picture.image

安装与使用指南

Scraperr 作为一款自托管工具,部署和安装过程非常便捷。以下是简单的安装步骤:

1、准备服务器环境

Scraperr 支持在本地或远程服务器上自托管,因此你可以选择任意适合的环境进行安装,只要能运行 Docker 即可。

2、下载并运行 Scraperr

克隆 Scraperr 的 GitHub 仓库,然后通过 Docker 运行。


 
 
 
 
   
git clone https://github.com/jaypyles/Scraperr.git  
cd Scraperr  
docker-compose up -d

在 docker-compose.yml 中设置环境变量和标签。主要是做MongoDB数据库配置和HTTP服务的映射。

Deploy 部署


 
 
 
 
   
make up

3、配置抓取规则与 XPath

启动后,通过 Web 界面配置所需的抓取规则。

提交抓取作业的第一步是输入您要抓取的网站的 URL。当您输入 URL 时,您将看到一个表格,您可以在其中填写要抓取的数据的选择器。您可以命名元素并为要抓取的元素提供 xpath。

picture.image

点击提交后,您的作业将被添加到队列中,并且系统将提示您转到作业表。

picture.image

从这里将显示作业的状态,一旦标记为completed,您就可以通过点击“下载”按钮来查看结果。

picture.image

4、集成 AI 解析

最后,就可以将抓取结果与 Ollama 或 OpenAI API 结合,你可以在设置中连接相应的 API 密钥,以便自动解析抓取的数据,快速获取分析结果。

picture.image

结语

Scraperr 的功能远远不止抓取数据这么简单,它的自托管、AI 对话结合等特性,打造了一个从数据采集到分析的闭环。不论是新手还是资深数据分析师,都可以利用 Scraperr 实现个性化的数据抓取和信息洞见。

GitHub 地址:https://github.com/jaypyles/Scraperr

picture.image

一款改变你视频下载体验的神器:MediaGo

新一代开源语音库CoQui TTS冲到了GitHub 20.5k Star

● 最新最全 VSCODE 插件推荐(2023版)

Star 50.3k!超棒的国产远程桌面开源应用火了!

四款国内外远程桌面软件横测:ToDesk、向日葵、TeamViewer、AnyDesk

picture.image

如果本文对您有帮助,也请帮忙点个 赞👍 + 在看 哈!❤️

在看你就赞赞我!

picture.image

0
0
0
0
关于作者
关于作者

文章

0

获赞

0

收藏

0

相关资源
大规模高性能计算集群优化实践
随着机器学习的发展,数据量和训练模型都有越来越大的趋势,这对基础设施有了更高的要求,包括硬件、网络架构等。本次分享主要介绍火山引擎支撑大规模高性能计算集群的架构和优化实践。
相关产品
评论
未登录
看完啦,登录分享一下感受吧~
暂无评论