RPA教程：影刀自动采集小红书完整图文笔记，效率直线提升 - 文章 - 开发者社区

哈喽，大家好，我是狗哥！专注AI领域干货知识分享，如果你正在学习AI相关知识，欢迎关注狗哥领取免费学习资料哦～

前言

前两天给大家分享了如何使用RPA批量采集小红书笔记以及进行仿写，相信大家都已经自己操作过一遍了吧？但是之前教大家的都是采集标题，作者信息等。这不，已经有小伙伴来问我如何对图片和文案信息进行采集了。

所以今天狗哥给大家带来的分享就是如何用影刀RPA工具实现自动采集完整的小红书图文笔记。通过这个小工具，我们只需要输入笔记链接，影刀就能自动帮你把标题、正文、图片、数据全部下载完成，保存到对应文件夹中。

下面先给大家看看演示效果：

在给出具体实现步骤之前，咱们先来看看具体实现思路：

picture.image

🛠️ 狗哥实操

1. 创建自定义对话框

第一步咱们创建一个自定义对话框，主要用来供外部输入一些配置信息，比如笔记链接、保存路径等。

picture.image

2. 打开小红书笔记页面

接下来打开第一步输入的笔记链接。

picture.image

3. 获取笔记数据

这里我们要获取帖子的标题、正文内容、标签、发布时间、图片、点赞收藏评论数量。

大家可以按需自行选择相关信息。

picture.image

狗哥这里只演示几个稍微特殊点的，其他类似的大家直接模仿即可哈。

3.1 提取标题内容

这里直接通过【获取元素对象（web）】去捕获笔记的标题区域。

picture.image

3.2 提取正文内容

和捕获标题一眼的操作。

picture.image

3.3 批量获取标签

picture.image

这里相对来说比较特殊一点，因为大家可以看到这个标签是一个个的，所以我们需要使用【获取相似元素列表(web)】这个组件来进行批量获取。

使用这个组件，我们需要先标记一个标签，然后通过捕获相似元素来批量获取内容。

picture.image

获取数据以后，我们要把这个列表内容取出来并将其设置为一个变量tags。

picture.image

可以看到上面我们创建的是一个空值的变量，在这里我们需要循环刚刚捕获到的tag_list，取出标签内容，然后通过变量赋值的方式，将其拼接到一起。注意我这里在每个标签中间使用了空格进行隔开。

picture.image

这里内容数据的捕获就先告一段落，其他的时间地点、点赞数量等相关信息按照上面的步骤重复操作下就可以了。

4. 创建文件夹

内容捕获完成后，接下来就是处理图片了。

首先我们需要创建一个文件夹用来保存我们的图片和帖子数据。

这里的Excel父文件夹，我们用一开始自定义输入的名称，新文件夹名称我们直接使用帖子的标题。

picture.image

5. 下载图片

下载图片的整体流程如下，稍微复杂那么一丢丢~

picture.image

5.1 获取图片元素列表

首先，我们知道帖子的图片是可以多张的，所以这里我们同样使用【获取相似元素列表(web)】来获取图片列表。

但是这里又和之前的有点不一样，这里的定位方式我们选择使用xpath选择器，因为之前的那种方法并不能获取完整的数据。

Xpath选择器值为:

  
//div[contains(@class, 'swiper-slide') and (not(contains(@class, 'swiper-slide-duplicate-')) or contains(@class, 'swiper-slide-active'))]//img

picture.image

这里狗哥简单介绍一下上面这个xpath选择器的值怎么来的。

首先我们在浏览器中点击f12，打开调试工具，查看图片的html代码，最后得出xpath，为了防止重复，所以xpath中我加了过滤条件来处理。

picture.image

当然这里不懂没关系，没编程基础，理解起来有点费劲，咱们照抄就好了~

使用xpath定位到这些图片标签，正常获取src就可以来进行下载了。

5.2 下载图片

接下来我们需要使用【ForEach列表循环】来获取图片列表：

picture.image

因为下载的图片，名字是一串很长的字符，所以这里设置一个变量，对图片重命名一下。

picture.image

最后使用【Http下载】，下载图片：

picture.image

6. 保存数据至EXCEL中

内容获取完成后，接下来就比较简单了，我们只需要新建一个Excel，然后把上面获取到的元素对象的值取出来，然后依次设置到Excel中就完成啦。完整的流程如下：

picture.image

首先第一步新建excel：

picture.image

然后我们将值一个个写入到Excel中，取一个举例就可以了，其他都类似。

picture.image

最后别忘了关闭保存哦~

picture.image

END

到此，今天的程序就做好了，恭喜你又学会制作一个小红书RPA程序啦!

最后给大家留一个小问题？今天分享的只不过是抓取单个文章数据，那么应该怎么实现批量抓取呢？大家可以去尝试制作一下呢，如果有需要的话就评论区留言，狗哥就再写一篇完整的批量采集图文数据呢。

最后给一个小提示：如果是一次性抓很多帖子的内容，咱们可以把帖子链接放到Excel中，然后读取Excel，循环抓取就可以啦~帖子链接的采集用之前的教程是可以直接实现的哦。

如果这篇文章对你有帮助，不知道大家能否点个关注，顺便 给我个三连击：点赞、转发和再看。有什么问题也欢迎在评论区留言，我会一一回复的～

我是狗哥，关注我获得更多优质内容。