用chatgpt和迅雷来批量下载arxiv论文 - 文章 - 开发者社区

arxiv论文一个个手动下载比较麻烦，可以借助chatgpt和迅雷来批量下载。

picture.image

首先把arxiv论文的网址，保存到Excel表格中：

picture.image

然后在ChatGPT中输入提示词：

你是一个Python编程专家，要写一段代码。具体步骤如下：

打开F盘的文件：URL.xlsx

读取第一列每一个单元格的内容；

举个例子：

如果第一列第一行单元格的内容是：https://arxiv.org/abs/2401.17788

第三列第一行单元格的内容是：https://arxiv.org/pdf/2401.17788.pdf

picture.image

Chatpgt给出的Python代码：

import pandas as pd

打开Excel文件

df = pd.read_excel('F:/URL.xlsx')

初始化两个空列表来存储FTP和直接下载链接

ftp_download_urls = []

direct_download_urls = []

遍历每个URL来生成新的下载链接

for url in df.iloc[:, 0]: # 假设URL在第一列

截取单元格内容中最后一个"/"和"."之间的字符

paper_id = url.split('/')[-1]

截取纸张ID中的数字部分(假设它总是在最后一个点之前)

id_parts = paper_id.split('.')

paper_id_number = id_parts[0] if len(id_parts) == 2 else paper_id # 考虑到可能没有点号

构建FTP下载URL

ftp_download_urls.append(ftp_url)

构建直接下载URL

direct_download_urls.append(direct_url)

将新的下载链接作为新列添加到DataFrame

df['FTP Download URL'] = ftp_download_urls

df['Direct Download URL'] = direct_download_urls

将更新后的DataFrame保存到新的Excel文件中

df.to_excel('F:/URL_with_download_links.xlsx', index=False)

picture.image

程序运行后，得到对应的arxiv论文的pdf下载地址，然后复制，迅雷会自动识别，批量下载：

picture.image

很快下载完成：

picture.image