RPA教程:影刀自动采集小红书完整图文笔记,效率直线提升

向量数据库大模型机器学习

哈喽,大家好,我是狗哥!专注AI领域干货知识分享,如果你正在学习AI相关知识,欢迎关注狗哥领取免费学习资料哦~

前言

前两天给大家分享了如何使用RPA批量采集小红书笔记以及进行仿写,相信大家都已经自己操作过一遍了吧?但是之前教大家的都是采集标题,作者信息等。这不,已经有小伙伴来问我如何对图片和文案信息进行采集了。

所以今天狗哥给大家带来的分享就是如何用影刀RPA工具实现自动采集完整的小红书图文笔记。通过这个小工具,我们只需要输入笔记链接,影刀就能自动帮你把标题、正文、图片、数据全部下载完成,保存到对应文件夹中。

下面先给大家看看演示效果:

在给出具体实现步骤之前,咱们先来看看具体实现思路:

picture.image

🛠️ 狗哥实操

1. 创建自定义对话框

第一步咱们创建一个自定义对话框,主要用来供外部输入一些配置信息,比如笔记链接、保存路径等。

picture.image

picture.image

2. 打开小红书笔记页面

接下来打开第一步输入的笔记链接。

picture.image

3. 获取笔记数据

这里我们要获取帖子的标题、正文内容、标签、发布时间、图片、点赞收藏评论数量。

大家可以按需自行选择相关信息。

picture.image

狗哥这里只演示几个稍微特殊点的,其他类似的大家直接模仿即可哈。

3.1 提取标题内容

这里直接通过【获取元素对象(web)】去捕获笔记的标题区域。

picture.image

picture.image

3.2 提取正文内容

和捕获标题一眼的操作。

picture.image

3.3 批量获取标签

picture.image

这里相对来说比较特殊一点,因为大家可以看到这个标签是一个个的,所以我们需要使用【获取相似元素列表(web)】这个组件来进行批量获取。

使用这个组件,我们需要先标记一个标签,然后通过捕获相似元素来批量获取内容。

picture.image

picture.image

获取数据以后,我们要把这个列表内容取出来并将其设置为一个变量tags。

picture.image

可以看到上面我们创建的是一个空值的变量,在这里我们需要循环刚刚捕获到的tag_list,取出标签内容,然后通过变量赋值的方式,将其拼接到一起。注意我这里在每个标签中间使用了空格进行隔开。

picture.image

这里内容数据的捕获就先告一段落,其他的时间地点、点赞数量等相关信息按照上面的步骤重复操作下就可以了。

4. 创建文件夹

内容捕获完成后,接下来就是处理图片了。

首先我们需要创建一个文件夹用来保存我们的图片和帖子数据。

这里的Excel父文件夹,我们用一开始自定义输入的名称,新文件夹名称我们直接使用帖子的标题。

picture.image

5. 下载图片

下载图片的整体流程如下,稍微复杂那么一丢丢~

picture.image

5.1 获取图片元素列表

首先,我们知道帖子的图片是可以多张的,所以这里我们同样使用【获取相似元素列表(web)】来获取图片列表。

但是这里又和之前的有点不一样,这里的定位方式我们选择使用xpath选择器,因为之前的那种方法并不能获取完整的数据。

Xpath选择器值为:

  
//div[contains(@class, 'swiper-slide') and (not(contains(@class, 'swiper-slide-duplicate-')) or contains(@class, 'swiper-slide-active'))]//img

picture.image

这里狗哥简单介绍一下上面这个xpath选择器的值怎么来的。

首先我们在浏览器中点击f12,打开调试工具,查看图片的html代码,最后得出xpath,为了防止重复,所以xpath中我加了过滤条件来处理。

picture.image

当然这里不懂没关系,没编程基础,理解起来有点费劲,咱们照抄就好了~

使用xpath定位到这些图片标签,正常获取src就可以来进行下载了。

5.2 下载图片

接下来我们需要使用【ForEach列表循环】来获取图片列表:

picture.image

因为下载的图片,名字是一串很长的字符,所以这里设置一个变量,对图片重命名一下。

picture.image

最后使用【Http下载】,下载图片:

picture.image

6. 保存数据至EXCEL中

内容获取完成后,接下来就比较简单了,我们只需要新建一个Excel,然后把上面获取到的元素对象的值取出来,然后依次设置到Excel中就完成啦。完整的流程如下:

picture.image

首先第一步新建excel:

picture.image

然后我们将值一个个写入到Excel中,取一个举例就可以了,其他都类似。

picture.image

最后别忘了关闭保存哦~

picture.image

END

到此,今天的程序就做好了,恭喜你又学会制作一个小红书RPA程序啦!

最后给大家留一个小问题?今天分享的只不过是抓取单个文章数据,那么应该怎么实现批量抓取呢?大家可以去尝试制作一下呢,如果有需要的话就评论区留言,狗哥就再写一篇完整的批量采集图文数据呢。

最后给一个小提示:如果是一次性抓很多帖子的内容,咱们可以把帖子链接放到Excel中,然后读取Excel,循环抓取就可以啦~帖子链接的采集用之前的教程是可以直接实现的哦。

如果这篇文章对你有帮助,不知道大家能否点个关注,顺便 给我个三连击:点赞、转发和再看。有什么问题也欢迎在评论区留言,我会一一回复的~

我是狗哥,关注我获得更多优质内容。

0
0
0
0
关于作者
关于作者

文章

0

获赞

0

收藏

0

相关资源
火山引擎大规模机器学习平台架构设计与应用实践
围绕数据加速、模型分布式训练框架建设、大规模异构集群调度、模型开发过程标准化等AI工程化实践,全面分享如何以开发者的极致体验为核心,进行机器学习平台的设计与实现。
相关产品
评论
未登录
看完啦,登录分享一下感受吧~
暂无评论