用chatgpt和迅雷来批量下载arxiv论文

火山方舟向量数据库智能语音交互

arxiv论文一个个手动下载比较麻烦,可以借助chatgpt和迅雷来批量下载。

picture.image

首先把arxiv论文的网址,保存到Excel表格中:

picture.image

然后在ChatGPT中输入提示词:

你是一个Python编程专家,要写一段代码。具体步骤如下:

打开F盘的文件:URL.xlsx

读取第一列每一个单元格的内容;

截取单元格内容中最后一个”/”和“.”之间的字符,然后前面加上“https://arxiv.org/ftp/arxiv/papers/”,后面加上单元格内容中最后一个”/”后的字符,然后加上“.pdf”,构建一个pdf文件下载URL;

截取单元格内容中最后一个”/”后的字符,然后前面加上“https://arxiv.org/pdf/”,后面加上“.pdf”,构建一个pdf文件下载URL;

举个例子:

如果第一列第一行单元格的内容是:https://arxiv.org/abs/2401.17788

那么第二列第一行单元格的内容是:https://arxiv.org/ftp/arxiv/papers/2401/2401.17788.pdf

第三列第一行单元格的内容是:https://arxiv.org/pdf/2401.17788.pdf

picture.image

Chatpgt给出的Python代码:

import pandas as pd

打开Excel文件

df = pd.read_excel('F:/URL.xlsx')

初始化两个空列表来存储FTP和直接下载链接

ftp_download_urls = []

direct_download_urls = []

遍历每个URL来生成新的下载链接

for url in df.iloc[:, 0]: # 假设URL在第一列

截取单元格内容中最后一个"/"和"."之间的字符

paper_id = url.split('/')[-1]

截取纸张ID中的数字部分(假设它总是在最后一个点之前)

id_parts = paper_id.split('.')

paper_id_number = id_parts[0] if len(id_parts) == 2 else paper_id # 考虑到可能没有点号

构建FTP下载URL

ftp_url = f'https://arxiv.org/ftp/arxiv/papers/{paper\_id\_number[:4]}/{paper\_id}.pdf'

ftp_download_urls.append(ftp_url)

构建直接下载URL

direct_url = f'https://arxiv.org/pdf/{paper\_id}.pdf'

direct_download_urls.append(direct_url)

将新的下载链接作为新列添加到DataFrame

df['FTP Download URL'] = ftp_download_urls

df['Direct Download URL'] = direct_download_urls

将更新后的DataFrame保存到新的Excel文件中

df.to_excel('F:/URL_with_download_links.xlsx', index=False)

picture.image

程序运行后,得到对应的arxiv论文的pdf下载地址,然后复制,迅雷会自动识别,批量下载:

picture.image

很快下载完成:

picture.image

0
0
0
0
关于作者

文章

0

获赞

0

收藏

0

相关资源
CV 技术在视频创作中的应用
本次演讲将介绍在拍摄、编辑等场景,我们如何利用 AI 技术赋能创作者;以及基于这些场景,字节跳动积累的领先技术能力。
相关产品
评论
未登录
看完啦,登录分享一下感受吧~
暂无评论