ChatGPT炒股:爬取传感器专家网上的传感器企业大全

机器学习算法ClickHouse

传感器专家网上有很齐全的传感器企业名录。对于想研究传感器行业的投资者,这是一份基础性资料。

不过,sensorexpert.com.cn这个网站上的网页数据是无限下拉的,动态加载,爬取有些麻烦。

picture.image

打开network,可以看到真实的网址:https://www.sensorexpert.com.cn/v2/brand/rec-list?page=71&pageSize=15&type=0

不过,有很多页面,而且不知道到底有多少页面。

把网址放到postman里面,模拟请求,尝试几次,终于知道页面数量:262页

picture.image

每页返回的数据是json格式:

picture.image

类似这样的:

{"total":3923,"list":[{"id":6182,"full_name":"鑫精诚传感器","logo":"https://i0.sensorexpert.com.cn/company/20230703/FtbfNy6shN.png?x-oss-process=style/f300","summary":"压力传感器、称重传感器、智能变送器、智能仪表","url":"/brand/6182.html","total":203,"product_arr":[{"id":17661418,"title":"XJC-100KS","cpbh":"XJC-100KS","cover_image":"https://static.sensorexpert.com.cn/cp/upload/image/20230520/1684578576916112_238x178.png","url":"/prod/detail/17661418.html"}

现在,可以在ChatGPT中输入提示词了:

写一段Python程序,批量爬取网页数据,具体步骤如下:

打开网站:https://www.sensorexpert.com.cn/v2/brand/rec-list?page={pagenumber}&pageSize=15&type=0

其中,pagenumber参数的值是从0到262;

获取返回的json数据,打印出来;

解析其中的"data"字段内容,这是一个json数据;

然后解析其中的"list"字段内容,这是一个json数据;

然后提取其中的字段:"id"、"full_name"、"logo"、"summary"、"url"、"total";

保存这些字段内容到F盘的“传感器企业大全(传感器专家网)20230714.xlsx”

注意:每一步都要输出信息;

每爬取1页内容后暂停5秒;

picture.image

一共3939条数据,全部成功爬取。

需要【传感器企业大全(传感器专家网)20230714】这个表格数据的朋友,可以加入“AIGC部落”然后下载。

扫描下方二维码即可加入“AIGC部落”:

picture.image

0
0
0
0
评论
未登录
看完啦,登录分享一下感受吧~
暂无评论