向AI转型的程序员都关注了这个号 👇👇👇
机器学习AI算法工程 公众号: datayx
大致分析了下京东评论 相同手机型号的产品用的评论都是一样的,所以每个型号的爬一个就可以了;
每一个评论最多只能爬100页,每页10条, 加上好中差评 大概能有2000多条不重复的评论
{productId}就是对应产品的productId;
{score}对应全部/好/中/差评 0:全部评价 1:差评 2:中评 3:好评
完整代码下载地址:
关注微信公众号 datayx 然后回复 华为 即可获取
每个型号的找一个主页,爬取评论
对应的html代码,用beautisoup分析网页,得到手机型号和herf
代码实现:
Start_requests:这里用的方法比较简单就是遍历循环,根据url三个参数,
爬取每个手机型号的,好中差评评论,最后通过pipelines存入mongodb:
爬到的数据
阅读过本文的人还看了以下:
《21个项目玩转深度学习:基于TensorFlow的实践详解》完整版PDF+附书代码
Machine Learning Yearning 中文翻译稿
斯坦福CS230官方指南:CNN、RNN及使用技巧速查(打印收藏)
中科院Kaggle全球文本匹配竞赛华人第1名团队-深度学习与特征工程
不断更新资源
深度学习、机器学习、数据分析、python
搜索公众号添加: datayx
长按图片,识别二维码,点关注