期刊复现：连续数据与分类数据共存的SHAP可视化散点图与箱形图组合形式 - 文章 - 开发者社区

picture.image

✨ 欢迎关注 ✨

本节介绍：连续数据与分类数据共存的SHAP可视化散点图与箱形图组合形式。数据采用模拟数据，作者根据个人对机器学习的理解进行代码实现与图表输出，仅供参考。完整数据和代码将在稍后上传至交流群，付费成员可在交流群中获取下载。需要的朋友可关注公众文末提供的购买方式。购买前请咨询，避免不必要的问题。

✨ 文献信息 ✨

picture.image

文献展示如何通过不同的可视化形式呈现原始数据与shap值的可视化，其中对于分类型数据，采用箱形图进行可视化，而对于连续数据，则使用散点图、拟合曲线和颜色映射的结合方式进行可视化，针对具有多个类别的数据，除了使用箱形图进行可视化外，也可以采用散点图来展示，尤其是在类别数较多的情况下，为了进一步解释这种选择，通过模拟数据展示都采用散点图的可视化形式

picture.image

从这张图的可视化可以看出，对于每个特征的数据，分类特征（如 sex, cp, restecg, fbs, 等）是通过散点图展示的，相对于文献中的箱图而言可能就没有这么美观，因此，在复现文献的过程中，类似的模拟数据也应该遵循这一方法，采用箱图进行分类数据的展示，而对于连续数据，使用散点图结合拟合曲线和颜色映射来展示

✨ 基础代码 ✨

  
import pandas as pd  
import numpy as np  
import matplotlib.pyplot as plt  
plt.rcParams['font.family'] = 'Times New Roman'  
plt.rcParams['axes.unicode_minus'] = False  
import warnings  
# 忽略所有警告  
warnings.filterwarnings("ignore")  
df = pd.read_csv('2025-6-18公众号Python机器学习AI.csv')  
from sklearn.model_selection import train_test_split  
  
# 划分特征和目标变量  
X = df.drop(['target'], axis=1)    
y = df['target']    
# 划分训练集和测试集  
X_train, X_test, y_train, y_test = train_test_split(  
    X,    
    y,   
    test_size=0.3,   
    random_state=42,   
    stratify=df['target']   
)  
import xgboost as xgb  
from sklearn.metrics import accuracy_score  
  
# 初始化XGBoost分类器  
model = xgb.XGBClassifier(random_state=42)  
  
# 训练模型  
model.fit(X_train, y_train)  
import shap  
explainer = shap.TreeExplainer(model)  
shap_values = explainer.shap_values(X_test)

代码使用默认参数下的XGBoost分类器对数据进行训练，并计算测试集的SHAP值，主要目的是为了图表的复现。需要注意的是，这里使用的是默认参数，没有进行模型调参等操作，实际应用时应该包括模型调参、多模型训练以及选择最优模型等步骤

picture.image

接下来绘制每个特征的散点图，并对每个特征的SHAP值进行LOWESS拟合，目的是展示每个特征与其SHAP值之间的关系，这个可视化图表就是用于参考的对象，所有都为散点形式展示

picture.image

这里提取了连续性数据，并仅对这些数据进行可视化，添加了颜色映射，使得观察者能够更方便地识别原始特征值和其对应的SHAP值之间的关系，以及它们如何影响预测结果的走向

picture.image

最后提取类别性数据的SHAP值，并通过箱线图可视化每个类别特征对模型预测的影响，帮助观察不同类别对预测结果的贡献

相较于散点图，使用箱线图对类别性数据进行可视化更加美观和直观，箱线图能够清晰地展示每个类别的SHAP值分布，包括中位数、四分位数、离群值等信息，帮助快速识别不同类别对模型预测的影响。特别是在类别性特征数据中，箱线图通过精简的数据表现方式，避免了散点图可能出现的重叠和混乱，使得不同类别间的比较更加明晰，从而提升可视化效果的易读性和信息传达的准确性

✨ 该文章案例 ✨

picture.image

在上传至交流群的文件中，像往期文章一样，将对案例进行逐步分析，确保读者能够达到最佳的学习效果。内容都经过详细解读，帮助读者深入理解模型的实现过程和数据分析步骤，从而最大化学习成果。

同时，结合提供的免费AI聚合网站进行学习，能够让读者在理论与实践之间实现融会贯通，更加全面地掌握核心概念。

✨ 购买介绍 ✨

本节介绍到此结束，有需要学习数据分析和Python机器学习相关的朋友欢迎到淘宝店铺：Python机器学习AI，或添加作者微信deep_ML联系，购买作者的公众号合集。截至目前为止，合集已包含近300多篇文章，购买合集的同时，还将提供免费稳定的AI大模型使用，包括但不限于ChatGPT、Deepseek、Claude等。

更新的内容包含数据、代码、注释和参考资料。作者仅分享案例项目，不提供额外的答疑服务。项目中将提供详细的代码注释和丰富的解读，帮助您理解每个步骤。购买前请咨询，避免不必要的问题。

✨ 群友反馈 ✨

picture.image