✨ 欢迎关注Python机器学习AI ✨
本节介绍:基于参考文献对于缺失值可视化展示进行相关复现
。数据采用模拟数据,作者根据个人对机器学习的理解进行代码实现与图表输出,细节并不保证与原文一定相同,仅供参考。
详细数据和代码将在稍后上传至交流群,付费成员可在交流群中获取下载。需要的朋友可关注公众文末提供的购买方式。
购买前请咨询,避免不必要的问题。
✨ 论文信息 ✨
✨
论文原图
✨
文献中使用了帕雷托图(Pareto Chart)来展示数据集中各变量的缺失值频率,并通过不同颜色的标记来突出缺失数据的比例,从而对数据清理的优先级进行有效的可视化展示
帕雷托图:这是一种结合了条形图和累计线图的图表形式。条形图展示了每个变量缺失值的频率,而累计线则展示了所有变量的累积缺失值百分比。帕雷托图通常用来识别最重要的问题,突出最需要关注的数据项
颜色编码:图表中使用了不同颜色的条形来标示缺失值的比例,方便快速识别哪些变量的缺失值比例较高。图表中不同的颜色(如黄色、橙色、红色等)标示了缺失值比例的不同区间,帮助判断是否需要进一步清理
累计线:累计线逐渐上升,展示了各个变量缺失值的累积百分比。这有助于理解哪些变量的缺失情况最为严重,并指导数据清理的优先级。例如,图中的“
Chair rise”变量和“
Alcohol intake”变量的缺失值频率较高,可能是清理工作的重点
✨ 模拟实现 ✨
接下来,将使用Python 代码复现这一缺失值展示方法,尽管展示缺失值的方式不止这一种
✨ 代码实现 ✨
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
plt.rcParams['font.family'] = 'Times New Roman'
plt.rcParams['axes.unicode_minus'] = False
df = pd.read_csv('2025-3-27公众号Python机器学习AI.csv', index_col=0)
from clearn.data_preprocessing import *
missing_values_heatmap(df, output_path=None, savefig_kws=None)
plt.savefig("1.pdf", format='pdf', bbox_inches='tight', dpi=1200)
生成一个数据缺失值的热力图可视化展示,但它并未展示数据实际缺失的占比信息,因此我们接下来将使用帕雷托图来补充这一分析
相对于前面的可视化效果,这张缺失值的帕雷托图展示了更多丰富的信息。它不仅显示了每个变量缺失值的频率,还通过颜色标记了缺失值占比的不同等级(例如,“Good”、“OK”、“NotBad”、“Bad”和“Remove”),使得数据的缺失情况一目了然。通过这种方式,分析者能够快速识别哪些变量的缺失值较多,便于后续进行数据清理和处理。虽然这里使用了 Python 自定义可视化,但类似的可视化功能在 R 包 dlookr 中也有实现,感兴趣的读者可以自行研究
✨ 该文章案例 ✨
在上传至交流群的文件中,像往期文章一样,将对案例进行逐步分析,确保读者能够达到最佳的学习效果。内容都经过详细解读,帮助读者深入理解模型的实现过程和数据分析步骤,从而最大化学习成果。
同时,结合提供的免费AI聚合网站进行学习,能够让读者在理论与实践之间实现融会贯通,更加全面地掌握核心概念。
✨ 购买介绍 ✨
本节介绍到此结束,有需要学习数据分析和Python机器学习相关的朋友欢迎到 淘宝店铺:Python机器学习AI,或添加作者微信deep_ML联系 ,购买作者的公众号合集。截至目前为止,合集已包含200多篇文章,购买合集的同时,还将提供免费稳定的AI大模型使用,包括但不限于ChatGPT、Deepseek、Claude等。
更新的内容包含数据、代码、注释和参考资料。
作者仅分享案例项目,不提供额外的答疑服务。项目中将提供详细的代码注释和丰富的解读,帮助您理解每个步骤
。
购买前请咨询,避免不必要的问题。
✨ 群友反馈 ✨
✨ 淘宝店铺 ✨
请大家打开淘宝扫描上方的二维码,进入店铺,获取更多Python机器学习和AI相关的内容,或者添加作者微信 deep_ML联系
避免淘宝客服漏掉信息
,希望能为您的学习之路提供帮助!
往期推荐
GeoShapley算法:基于地理数据的Shapley值在空间效应测量中的应用——位置重要性与特征交互作用分析
期刊配图:基于‘UpSet图’展示不同数据预处理对模型性能的影响
J Clean Prod:结合K-means聚类确定样本分组方式再结合shap初步解释模型的模拟实现
nature communications:结合LightGBM特征选择与RF模型的机器学习方法及SHAP解释
期刊配图:结合lightgbm回归模型与K折交叉验证的特征筛选可视化
Nature新算法:准确的小数据预测与表格基础模型TabPFN分类实现及其模型解释
Nature新算法:准确的小数据预测与表格基础模型TabPFN回归实现及其模型解释
如果你对类似于这样的文章感兴趣。
欢迎关注、点赞、转发~
个人观点,仅供参考