文档备案控制台登录立即注册

首页文章活动镜像站

发布

使用 Python+PySpark 做用户画像

开发者阿橙

火山方舟向量数据库机器学习

picture.image

♚

作者：KingShine，现居北京，程序猿一枚。主要方向为数据分析、自然语言处理，大数据。希望结交到志同道合的朋友，共同进步。

一、数据准备

本文主要是作为一个PySpark的入手实例来做，数据来源网络。主要用到两个数据文件： action.txt， document.txt。下表为 action.txt，数据格式： userid~docid~behaivor~time~ip，即：用户编码~~文档编码~~行为日期IP地址

picture.image

下表为 document.txt，数据格式： docid~channelname~source~keyword:score，即：文档编码~类别（大类）~主题（细类）~关键词：权重

picture.image

二、用户点击率

用户点击率即为 action.txt文件中每个用户behaivor列中1的数量除以0的数量。 1、创建 SparkSession对象

picture.image

2、读取数据，将数据根据‘~’拆分，获取 userid和 behavior两列

picture.image

click_rate1数据如下：

picture.image

3、统计用户的各类行为数

picture.image

click_rate2数据如下：

picture.image

4、将 userid, behavior和数量取出作为3列，并转为DataFrame格式

picture.image

click_rate3_df数据如下：

picture.image

5、根据 userId进行分组，将 behavior列数据进行旋转作为列标数值为 cnt。并将 behavior的0和1替换为 “browse”和 ”click”。

picture.image

click_rate5数据如下：

picture.image

6、填充缺失值

picture.image

click_rate6数据如下：

picture.image

7、将计算的数据作为新列添加到数据

picture.image

click_rate数据如下：

picture.image

8、将最后处理的数据保存到本地，关闭SparkSession

picture.image

最后保存到本地的数据为多个文件，每个文件的格式如下：

picture.image

picture.image

三、用户标签

使用主题（细类）给用户打标签 1、读取 docunment.txt，获取 docid、 source两列，即文档编码和主题（细类）两列

picture.image

sources_df数据如下：

picture.image

2、读取 action.txt，只获取具有点击行为的 userid和 docid数据，即 behavior为1的数据。

picture.image

actions_df数据如下：

picture.image

3、创建两个DataFrame的临时视图

picture.image

4、进行关联查询

picture.image

interestTags数据如下：

picture.image

5、将最后处理的数据保存到本地，关闭SparkSession

picture.image

导出后的数据如下：

picture.image

踩雷点：

1、代码开发时，可以每个操作跟一个action，方便查看数据，跑批的时候不需要每个都跟，只需要最后一个action，否则会给机器增加很多工作量。 2、中间过程生成的DataFrame必须先建立临时视图，后面才能使用，否则会报错。

赞赏作者

picture.image

Python中文社区作为一个去中心化的全球技术社区，以成为全球20万Python中文开发者的精神部落为愿景，目前覆盖各大主流媒体和协作平台，与阿里、腾讯、百度、微软、亚马逊、开源中国、CSDN等业界知名公司和技术社区建立了广泛的联系，拥有来自十多个国家和地区数万名登记会员，会员来自以工信部、清华大学、北京大学、北京邮电大学、中国人民银行、中科院、中金、华为、BAT、谷歌、微软等为代表的政府机关、科研单位、金融机构以及海内外知名公司，全平台近20万开发者关注。

picture.image

▼ 点击成为 社区注册会员 「在看」 一下，一起PY

0

0

0

0

关于作者

开发者阿橙

关于作者

开发者阿橙

文章

0

获赞

0

收藏

0

相关资源

云原生可观测性技术的落地实践

云原生技术和理念在近几年成为了备受关注的话题。应用通过云原生改造，变得更动态、弹性，可以更好地利用云的弹性能力。但是动态、弹性的环境也给应用以及基础设施的观测带来了更大的挑战。本次分享主要介绍了云原生社区中可观测性相关的技术和工具，以及如何使用这些工具来完成对云原生环境的观测。

相关产品

推荐阅读

手把手教你配置BrowserTools MCP，Windows 和 Mac全流程，关键命令别忽略。

如何看待MCP？大模型工具调用的解耦！

分布式调用跟踪系统的设计和应用

Trae功能上新：支持自定义主题，你的专属智能开发环境来了

Go语言并发机制初探

评论

未登录

看完啦，登录分享一下感受吧～

暂无评论