✨ 欢迎关注Python机器学习AI ✨
本节介绍:
相关系数+统计显著性的饼图可视化,数据采用模拟数据无任何现实意义,作者根据个人对机器学习的理解进行代码实现与图表输出,仅供参考。
详细数据和代码将在稍后上传至交流群,付费成员可在交流群中获取下载。需要的朋友可关注公众文末提供的购买方式。
购买前请咨询,避免不必要的问题。
✨ 可视化 ✨
可视化是一个相关性矩阵,使用饼图来呈现。它显示了不同变量之间关系的强度和方向,变量名称(如E6-1、G4-2、A6-1等)作为标签。每个饼图的颜色表示相关性的方向:蓝色代表正相关,红色代表负相关。饼图的填充部分表示皮尔逊相关系数的绝对值,值接近1(或-1)表示相关性更强,无论是正相关还是负相关。统计显著性由星号表示,*表示p<0.05,**表示p<0.01,***表示p<0.001。
该可视化的目的是提供一种直观的方式来查看多个变量之间的相关性,颜色和饼图大小帮助快速传达这些关系的强度和方向。
第二张图通过将较大的相关系数(如接近1或-1的值)使用白色字体显示,以解决第一张图中黑色字体在高相关系数时可能导致的数字模糊和难以辨认的问题。这样一来,尤其在饼图的颜色深或接近极值时,白色字体使得相关系数的数值更加清晰易读,提升了图表的可视性和信息传达的准确性。同时,这种调整也可以与多重共线性分析结合使用,较高的相关系数代表变量之间可能存在较强的线性关系,进而导致多重共线性问题。因此,可以设定一个阈值,当相关系数超过此值时,使用白色字体显示,以便更好地识别和处理多重共线性问题。
✨ 基础代码 ✨
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
plt.rcParams['font.family'] = 'Times New Roman'
plt.rcParams['axes.unicode_minus'] = False
from matplotlib.patches import Wedge
import warnings
# 忽略所有警告
warnings.filterwarnings("ignore")
from sklearn.model_selection import train_test_split
df = pd.read_excel('2025-4-5公众号Python机器学习AI.xlsx')
import seaborn as sns
# 计算相关系数矩阵
correlation_matrix = df.corr()
# 创建一个与相关系数矩阵相同大小的全False的掩码
mask = np.zeros_like(correlation_matrix, dtype=bool)
# 设置掩码,隐藏对角线和下三角部分
n = correlation_matrix.shape[0] # 获取矩阵的大小
for i in range(n):
for j in range(n):
if i >= j: # 对角线和下三角部分设为True
mask[i, j] = True
else:
mask[i, j] = False # 上三角部分为False
# 绘制相关系数热力图
plt.figure(figsize=(12, 8))
ax = sns.heatmap(
correlation_matrix,
annot=True,
fmt=".2f",
cmap="coolwarm",
cbar=True,
annot_kws={"size": 12}, # 增大相关系数字体大小
vmin=-1, vmax=1, # 设置颜色映射范围
cbar_kws={"ticks": [-1, -0.8, -0.6, -0.4, -0.2, 0, 0.2, 0.4, 0.6, 0.8, 1]}, # 设置颜色条范围
mask=mask # 应用掩码,隐藏对角线和下三角部分
)
# 关闭x轴和y轴的刻度与标签
ax.set_xticks([]) # 关闭x轴刻度
ax.set_yticks([]) # 关闭y轴刻度
ax.set_xticklabels([]) # 关闭x轴标签
ax.set_yticklabels([]) # 关闭y轴标签
# 在对角线位置添加特征名
for i in range(n):
ax.text(i, i, df.columns[i], ha='center', va='center', fontsize=12, color='black')
plt.savefig("1.pdf", format='pdf', bbox_inches='tight', dpi=1200)
plt.show()
计算一个数据集的相关系数矩阵,并通过热力图展示了变量之间的相关性,隐藏了下三角部分并在对角线添加了特征名称,以清晰展示相关性关系。它是一个基础的相关性热力图代码,可以根据此逻辑进一步进行可视化的定制和完善,如调整字体颜色、实现多重共线性阈值等。最终前面展示的相关系数展示形式完整代码将在交流群中获取。
✨ 该文章案例 ✨
在上传至交流群的文件中,像往期文章一样,将对案例进行逐步分析,确保读者能够达到最佳的学习效果。内容都经过详细解读,帮助读者深入理解模型的实现过程和数据分析步骤,从而最大化学习成果。
同时,结合提供的免费AI聚合网站进行学习,能够让读者在理论与实践之间实现融会贯通,更加全面地掌握核心概念。
✨ 购买介绍 ✨
本节介绍到此结束,有需要学习数据分析和Python机器学习相关的朋友欢迎到 淘宝店铺:Python机器学习AI,或添加作者微信deep_ML联系 ,购买作者的公众号合集。截至目前为止,合集已包含200多篇文章,购买合集的同时,还将提供免费稳定的AI大模型使用,包括但不限于ChatGPT、Deepseek、Claude等。
更新的内容包含数据、代码、注释和参考资料。
作者仅分享案例项目,不提供额外的答疑服务。项目中将提供详细的代码注释和丰富的解读,帮助您理解每个步骤
。
购买前请咨询,避免不必要的问题。
✨ 群友反馈 ✨
✨ 淘宝店铺 ✨
请大家打开淘宝扫描上方的二维码,进入店铺,获取更多Python机器学习和AI相关的内容,或者添加作者微信 deep_ML联系
避免淘宝客服漏掉信息
,希望能为您的学习之路提供帮助!
往期推荐
GeoShapley算法:基于地理数据的Shapley值在空间效应测量中的应用——位置重要性与特征交互作用分析
期刊配图:基于‘UpSet图’展示不同数据预处理对模型性能的影响
J Clean Prod:结合K-means聚类确定样本分组方式再结合shap初步解释模型的模拟实现
nature communications:结合LightGBM特征选择与RF模型的机器学习方法及SHAP解释
期刊配图:结合lightgbm回归模型与K折交叉验证的特征筛选可视化
Nature新算法:准确的小数据预测与表格基础模型TabPFN分类实现及其模型解释
Nature新算法:准确的小数据预测与表格基础模型TabPFN回归实现及其模型解释
如果你对类似于这样的文章感兴趣。
欢迎关注、点赞、转发~
个人观点,仅供参考