2024年AI+爬虫指南:使用JinaAI、FireCrawl、Crawl4AI(别用Beautiful Soup了)

技术

Aitrainee | 公众号:AI进修生

🌟了解如何使用 Beautiful Soup、Jena AI 的 Reader API 和 Mendable 的 Firecrawl 从网页和 PDF 中抓取数据。

picture.image

Hello,大家好,欢迎观看本期新文章,

在这篇文章中,我们将介绍多种 数据抓取 工具,包括开源、免费和付费的工具,帮助你从网页中提取数据。众所周知,大型语言模型(LLMs)需要 大量数据 ,而这些数据大部分来自网页。

网页数据的问题在于其复杂性和无结构性,包含大量噪音、格式不一致的信息以及大量无关内容。

为了正确解析这些数据,通常需要将HTML转换为Markdown。传统上,人们使用 Beautiful Soup 这样的工具,根据 HTML标签 提取内容,如表格、图片和链接等。

然而,为了有效地从网页提取内容,你需要编写复杂的规则和正则表达式,这样的过程非常繁琐。

这就引出了使用 LLMs处理HTML文档 的优势。通过训练LLMs理解HTML标签和结构,你可以高效地从HTML文件中提取数据或内容。

因此,今天的文章将展示一些不同的工具,包括完全免费但不开源的工具、付费工具,以及一些完全开源的工具,帮助你从HTML文档中进行数据抓取。

首先,我们来看一下BeautifulSoup作为基础工具的代码示例。你需要安装requests和BeautifulSoup包,并编写Python函数来从给定的URL抓取数据。

picture.image

通过requests库读取数据,再用BeautifulSoup解析并返回最终的字符串输出。作为第一个测试,我们使用Hugging Face的博客文章来演示数据抓取。结果显示为HTML代码,需要后续使用正则表达式处理以提取具体内容。这种方法需要针对网页的复杂性编写手工规则,非常耗时。

picture.image

第二个测试是从网页中抓取PDF文件的数据。使用BeautifulSoup抓取PDF文件时,输出的内容非常混乱,难以直接处理。

picture.image

这时,我们可以使用一个更简单且效果更好的解决方案——Jina AI的Reader API。

picture.image

你只需在基础URL上添加你的URL,它就能为你抓取网页内容。这个工具不仅支持免费使用,还能处理PDF文件,并能生成结构良好的Markdown输出。Reader API的优点在于其易用性和高质量的输出,甚至能够处理数学公式和代码片段。

picture.image

picture.image

除了Jina AI,我们还介绍了另一个名为FireCrawl的工具,这是由Mendable公司开发的。它提供免费额度,可以本地运行。使用它只需提供URL并点击运行,即可得到格式良好的Markdown。

[picture.image

将网站转变为大模型训练数据的神器:自动化爬虫工具FireCrawl,两周斩获4K Star!](http://mp.weixin.qq.com/s?__biz=MzkyMzY1NTM0Mw==&mid=2247487244&idx=1&sn=4ce549ff43411d1e8e219b8abb06ed73&chksm=c1e082ccf6970bdab79122f69b8d286498a26b48285b710bb42731662d21585bc9690d28152b&scene=21#wechat_redirect)

同样,它也需要API密钥来提高速率限制。FireCrawl提供了一个在线平台,用户可以输入URL并运行数据抓取,得到结构化的Markdown文件。这个工具同样支持处理PDF文件,但效果不如Jina AI的Reader API。

此外,还有两个值得一提的项目是Scrape Graph AI和Crawl4AI。Scrape Graph AI结合了网页抓取和知识图谱,可以基于抓取的数据创建RAG应用。

[picture.image

当AI遇上爬虫:ScrapeGraphAI结合LLM实现前所未有的网页抓取效率,一言即搜!](http://mp.weixin.qq.com/s?__biz=MzkyMzY1NTM0Mw==&mid=2247485702&idx=1&sn=937fa190b8d4f6398be4c620b67764f7&chksm=c1e084c6f6970dd0d611ab4a1191061e8987f9d510e9e6b205cf8e54f7cbd136fdf3dc424406&scene=21#wechat_redirect)

这个项目有详细的GitHub文档,Crawl4AI则支持多种提取策略和运行JS脚本,不仅可以抓取数据,还能基于抓取的数据构建LLM应用。这个工具由Uncle Code开发,开源并免费使用,非常适合需要更高级数据处理功能的用户。

picture.image

这些工具将为你的项目提供一个良好的起点。感谢观看,下期再见。

参考链接:

[1]https://jina.ai/reader/

[2]https : //www.firecrawl.dev/

知音难求,自我修炼亦艰

抓住前沿技术的机遇,与我们一起成为创新的超级个体

(把握AIGC时代的个人力量)

picture.image

点这里👇关注我,记得标星哦~

一键三连「分享」、「点赞」和「在看」

科技前沿进展日日相见 ~

picture.image

0
0
0
0
关于作者
关于作者

文章

0

获赞

0

收藏

0

相关资源
边缘计算在视频直播场景的应用与实践
视频直播作为当前视频行业的核心场景之一,对于高清化、实时性、交互性要求较高,需要强大算力保障用户流畅观看与互动体验。本次分享主要从视频直播场景需求切入,介绍基于边缘计算的视频直播场景方案及其架构、应用与实践。
相关产品
评论
未登录
看完啦,登录分享一下感受吧~
暂无评论