FireCrawl,抓取网页变成Markdown

向量数据库小程序MySQL

没错,这是一个可以抓取网页内容变成markdown文件的工具。

是给大模型构建知识库的一把好手。

它能够抓取单个网页,还能够根据关键词抓取搜索结果网页中的内容。

公众号算法美食屋后台回复关键词:源码,获取本文notebook源码。

核心代码逻辑:

picture.image

〇,WEB体验

可以在这个工具的网址直接用github账号登录注册使用。

https://www.firecrawl.dev/app/playground

在这个playground页面,丢进去你想抓取的url就可以抓取并下载结果。

每个月每个账号可以免费抓取500个网页页面。

如果你想要更多,很简单,给这个产品打钱 或者 注册多个账号(逃)~

此外,这个产品也是开源的,你也可以在本地部署一套。

picture.image

二,Python抓取单网页

首先在这个页面获取api_key

https://www.firecrawl.dev/app/api-keys

然后安装它的Python接口库

pip install firecrawl-py

使用如下代码抓取:

picture.image

picture.image

三,Python搜索关键词

使用如下代码根据关键词获取页面

picture.image

picture.image

picture.image

0
0
0
0
关于作者
关于作者

文章

0

获赞

0

收藏

0

相关资源
KubeZoo: 轻量级 Kubernetes 多租户方案探索与实践
伴随云原生技术的发展,多个租户共享 Kubernetes 集群资源的业务需求应运而生,社区现有方案各有侧重,但是在海量小租户的场景下仍然存在改进空间。本次分享对现有多租户方案进行了总结和对比,然后提出一种基于协议转换的轻量级 Kubernetes 网关服务:KubeZoo,该方案能够显著降低多租户控制面带来的资源和运维成本,同时提供安全可靠的租户隔离性。
相关产品
评论
未登录
看完啦,登录分享一下感受吧~
暂无评论