2024年AI+爬虫指南：使用JinaAI、FireCrawl、Crawl4AI（别用Beautiful Soup了） - 文章 - 开发者社区

Aitrainee | 公众号：AI进修生

🌟了解如何使用 Beautiful Soup、Jena AI 的 Reader API 和 Mendable 的 Firecrawl 从网页和 PDF 中抓取数据。

picture.image

Hello，大家好，欢迎观看本期新文章，

在这篇文章中，我们将介绍多种 数据抓取 工具，包括开源、免费和付费的工具，帮助你从网页中提取数据。众所周知，大型语言模型（LLMs）需要 大量数据 ，而这些数据大部分来自网页。

网页数据的问题在于其复杂性和无结构性，包含大量噪音、格式不一致的信息以及大量无关内容。

为了正确解析这些数据，通常需要将HTML转换为Markdown。传统上，人们使用 Beautiful Soup 这样的工具，根据 HTML标签 提取内容，如表格、图片和链接等。

然而，为了有效地从网页提取内容，你需要编写复杂的规则和正则表达式，这样的过程非常繁琐。

这就引出了使用 LLMs处理HTML文档 的优势。通过训练LLMs理解HTML标签和结构，你可以高效地从HTML文件中提取数据或内容。

因此，今天的文章将展示一些不同的工具，包括完全免费但不开源的工具、付费工具，以及一些完全开源的工具，帮助你从HTML文档中进行数据抓取。

首先，我们来看一下BeautifulSoup作为基础工具的代码示例。你需要安装requests和BeautifulSoup包，并编写Python函数来从给定的URL抓取数据。

picture.image

通过requests库读取数据，再用BeautifulSoup解析并返回最终的字符串输出。作为第一个测试，我们使用Hugging Face的博客文章来演示数据抓取。结果显示为HTML代码，需要后续使用正则表达式处理以提取具体内容。这种方法需要针对网页的复杂性编写手工规则，非常耗时。

picture.image

第二个测试是从网页中抓取PDF文件的数据。使用BeautifulSoup抓取PDF文件时，输出的内容非常混乱，难以直接处理。

picture.image

这时，我们可以使用一个更简单且效果更好的解决方案——Jina AI的Reader API。

picture.image

你只需在基础URL上添加你的URL，它就能为你抓取网页内容。这个工具不仅支持免费使用，还能处理PDF文件，并能生成结构良好的Markdown输出。Reader API的优点在于其易用性和高质量的输出，甚至能够处理数学公式和代码片段。

picture.image

除了Jina AI，我们还介绍了另一个名为FireCrawl的工具，这是由Mendable公司开发的。它提供免费额度，可以本地运行。使用它只需提供URL并点击运行，即可得到格式良好的Markdown。

[ picture.image

同样，它也需要API密钥来提高速率限制。FireCrawl提供了一个在线平台，用户可以输入URL并运行数据抓取，得到结构化的Markdown文件。这个工具同样支持处理PDF文件，但效果不如Jina AI的Reader API。

此外，还有两个值得一提的项目是Scrape Graph AI和Crawl4AI。Scrape Graph AI结合了网页抓取和知识图谱，可以基于抓取的数据创建RAG应用。

[ picture.image

这个项目有详细的GitHub文档，Crawl4AI则支持多种提取策略和运行JS脚本，不仅可以抓取数据，还能基于抓取的数据构建LLM应用。这个工具由Uncle Code开发，开源并免费使用，非常适合需要更高级数据处理功能的用户。

picture.image

这些工具将为你的项目提供一个良好的起点。感谢观看，下期再见。

参考链接：

知音难求，自我修炼亦艰

抓住前沿技术的机遇，与我们一起成为创新的超级个体

（把握AIGC时代的个人力量）

点这里👇关注我，记得标星哦～

一键三连「分享」、「点赞」和「在看」

科技前沿进展日日相见 ~

picture.image