期刊复现：SVM、RF、BDT、DT、Logit五大模型堆叠31种组合情况最优模型的SHAP解释 - 文章 - 开发者社区

picture.image

✨ 欢迎关注Python机器学习AI ✨

本节介绍：五大模型堆叠31种组合情况最优模型SHAP解释，数据采用模拟数据无任何现实意义，作者根据个人对机器学习的理解进行代码实现与图表输出，仅供参考。完整数据和代码将在稍后上传至交流群，成员可在交流群中获取下载。需要的朋友可关注公众文末提供的获取方式。点赞、推荐、转发参与文末免费赠书并提供高效的AI工具~！

✨ 论文信息 ✨

picture.image

文献图中 A、B、C 三部分（图 5）分别用SHAP方法从不同角度解释模型预测结果的整体特征影响

A图：Bar plot这里直接绘制的所谓SHAP Value，可能是直接对SHAP值想加进行绘制，但是一般而言展示各特征对模型输出的平均影响力是通过SHAP值的绝对值平均进行绘制SHAP条形图，体现全局重要性排序，对于这种做法是不推荐的为什么——每个特征的SHAP值的绝对值平均代表它对模型输出的影响力，无论这个影响是正向还是负向，它反映的是这个特征有多大程度参与决策，而不是方向（推动还是抑制），如果不取绝对值，绘制柱状图可能会存在正负值互相抵消：模型虽然频繁用这个特征，但因正负方向交替，平均值接近0，特征重要性图就会低估真实影响，甚至把重要特征排在末尾

B 图：Beeswarm plot展示每个特征所有样本的SHAP值分布，同时用颜色编码特征取值（高低），揭示正负方向和非线性关系，一般进行展示不过多描述

C 图：dependence plot每张小图展示某一特征的取值和对应SHAP值的关系，便于观察边际效应和趋势，如非线性关系或阈值效应，对其会进行详细的讲解，可以理解为是把 B图的每个特征进行了可视化展示，更方便解读，关系更明朗

picture.image

图6中的 A 和 B 图的作用展示两个个体（一个高风险，一个低风险）样本中，各特征对模型预测结果的具体贡献（SHAP 值），从而解释模型为何判定其预测概率分别为0.89和0.06，类似于SHAP力图或SHAP瀑布图的简化版，仅展示各个特征对单个样本预测值的正负贡献，但缺失“基准值”信息，关于这篇文献其它复现可参考历史文章——期刊复现：单变量特征降维与共线性分析结合RFE集成排名进行特征筛选下的组合拳流程、期刊复现：SVM、RF、BDT、DT、Logit五大模型堆叠31种组合情况优化与最优模型选择可视化

✨ 代码实现 ✨

  
plt.figure()  
shap.summary_plot(shap_values, X_test, feature_names=X_test.columns, plot_type="dot", show=False)  
plt.savefig("shap_1.pdf", format='pdf', bbox_inches='tight', dpi=1200)  
plt.show()

picture.image

SHAP中最常用的全局解释图之一，指定使用“点图”形式，每一行为一个特征，颜色表示特征值大小，横轴为SHAP值，也就是文献中的图B，关于模型部分在前期文章——期刊复现：SVM、RF、BDT、DT、Logit五大模型堆叠31种组合情况优化与最优模型选择可视化已经实现

  
plt.figure(figsize=(10, 5))  
shap.summary_plot(shap_values, X_test, plot_type="bar", show=False)  
plt.tight_layout()  
plt.savefig("shap_2.pdf", format='pdf', bbox_inches='tight', dpi=1200)  
plt.show()

picture.image

绘制并保存SHAP值的柱状图，展示各特征对模型输出的平均影响力大小，适合用作模型解释中全局变量重要性展示，类似于文献中的图A，但是优劣已经阐述

  
import statsmodels.api as sm  
# 获取新的特征列表  
features = shap_values_df[['NtproBNP', 'AtrialFibrillationType', 'LeftAtrialDiam',   
                           'SystolicBP', 'BMI', 'Hb', 'Sex', 'Statin', 'Dabigatran']].columns.tolist()  
  
# 设置画布和子图结构（3行3列）  
fig, axes = plt.subplots(3, 3, figsize=(10, 10))  
axes = axes.flatten()  
  
# 循环绘制每个特征的散点图  
for i in range(len(axes)):  
    if i < len(features):  # 如果还有特征未绘制  
        feature = features[i]  
        if feature in X_test.columns and feature in shap_values_df.columns:  
            ax = axes[i]  
  
            # 绘制散点图  
            ax.scatter(X_test[feature], shap_values_df[feature], s=10, color="#6A9ACE")  
            ax.axhline(y=0, color='red', linestyle='-.', linewidth=1)  # 添加横线  
  
            # 添加标签  
            ax.set_xlabel(feature, fontsize=10)  
            ax.set_ylabel(f'SHAP value for\n{feature}', fontsize=10)  
            ax.spines['top'].set_visible(False)  
            ax.spines['right'].set_visible(False)  
        else:  
            # 如果特征不存在，隐藏对应的子图  
            axes[i].axis('off')  
    else:  
        # 如果超过了特征数量，关闭剩余的子图  
        axes[i].axis('off')  
plt.savefig("shap_3.pdf", format='pdf', bbox_inches='tight', dpi=1200)  
plt.tight_layout()  
plt.show()

picture.image

绘制排名前9个指定特征在测试集上的SHAP值散点图（SHAP依赖图），用于展示各特征值与其对应SHAP值之间的关系，每个子图表示一个特征；横轴是该特征的取值，纵轴是其对应的 SHAP 值；用于揭示该特征的变化如何影响模型输出（正向或负向）；红色虚线代表 SHAP 值为 0 的分界线；适合用来判断特征对模型输出的方向性与非线性关系，也就是文献中的图C

  
# 获取类别0的概率值  
probs_class_0 = best.predict_proba(X_test)[:, 0]  
indices_class_0_less_than_05 = np.where(probs_class_0 > 0.5)[0]  
# 打印结果：显示对应的索引和类别0的概率  
for index in indices_class_0_less_than_05:  
    print(f"样本索引: {index}, 类别0的预测概率: {probs_class_0[index]}")

筛选并打印出模型在测试集中预测为“类别0”的概率大于0.5的样本索引及其对应的概率值

  
样本索引: 0, 类别0的预测概率: 0.9388499601208223  
样本索引: 1, 类别0的预测概率: 0.8060601835150523  
样本索引: 2, 类别0的预测概率: 0.7610764030791878  
样本索引: 4, 类别0的预测概率: 0.7185807460445682  
样本索引: 5, 类别0的预测概率: 0.9215438770987564  
样本索引: 6, 类别0的预测概率: 0.938271347506392  
样本索引: 10, 类别0的预测概率: 0.8070484781411937  
样本索引: 11, 类别0的预测概率: 0.9207555128867952  
样本索引: 13, 类别0的预测概率: 0.5291430573436557  
样本索引: 15, 类别0的预测概率: 0.5009361470857114  
样本索引: 16, 类别0的预测概率: 0.6993764068912958  
......

  
# 获取类别1的概率值  
probs_class_1 = best.predict_proba(X_test)[:, 1]  
indices_class_1_greater_than_05 = np.where(probs_class_1 > 0.5)[0]  
# 打印结果：显示对应的索引和类别1的概率  
for index in indices_class_1_greater_than_05:  
    print(f"样本索引: {index}, 类别1的预测概率: {probs_class_1[index]}")

筛选并打印出模型在测试集中预测为“类别1”的概率大于0.5的样本索引及其对应的预测概率

  
样本索引: 3, 类别1的预测概率: 0.6848041551200924  
样本索引: 7, 类别1的预测概率: 0.8714038047551133  
样本索引: 8, 类别1的预测概率: 0.690165625436705  
样本索引: 9, 类别1的预测概率: 0.7601004741556072  
样本索引: 12, 类别1的预测概率: 0.8239004938636667  
样本索引: 14, 类别1的预测概率: 0.590161417193851  
样本索引: 25, 类别1的预测概率: 0.6604734267170023  
样本索引: 29, 类别1的预测概率: 0.5804566457039086  
......

根据预测概率输出结果，最终选取索引为0的样本：属于低风险样本（预测偏向类别0）；索引为9的样本：属于高风险样本（预测偏向类别1）；这两个样本代表模型在低风险和高风险预测下的典型情况，使用SHAP方法为这两个样本分别绘制单样本解释图

  
# 指定的特征顺序  
selected_features = ['NtproBNP', 'AtrialFibrillationType', 'LeftAtrialDiam',   
                     'SystolicBP', 'BMI', 'Hb', 'Sex', 'Statin', 'Dabigatran']  
  
# 获取 SHAP 值（第一个样本）  
shap_values_selected = shap_values_df.loc[0, selected_features]  
  
# 计算剩余特征 SHAP 总和  
other_features = shap_values_df.drop(columns=selected_features).iloc[0, :]  
other_sum = other_features.sum()  
  
# 构造一个有固定顺序的 Series（不进行排序）  
ordered_features = selected_features + ['Other Features (Sum)']  
shap_values_ordered = pd.Series(  
    list(shap_values_selected) + [other_sum],  
    index=ordered_features  
)  
  
# 设置画布  
plt.figure(figsize=(12, 8))  
  
# 颜色映射（coolwarm），按 SHAP 值归一化  
cmap = plt.cm.get_cmap("coolwarm")  
norm = plt.Normalize(vmin=shap_values_ordered.min(), vmax=shap_values_ordered.max())  
colors = [cmap(norm(v)) for v in shap_values_ordered]  
  
# 绘图（不排序，直接使用指定顺序）  
ax = plt.barh(y=shap_values_ordered.index, width=shap_values_ordered.values,  
              color=colors, height=0.8)  
  
# 反转 Y 轴：让 NtproBNP 在最上面  
plt.gca().invert_yaxis()  
  
# 添加数值标签（保留两位小数）  
for i, v in enumerate(shap_values_ordered.values):  
    plt.text(v + 0.001, i, f"{v:.2f}", va='center',  
             fontsize=18, fontweight='bold', color='black')  
  
# 设置标题（左对齐）  
plt.title("Prob.=0.06", fontsize=23, fontweight='bold', loc='left')  
  
# 坐标轴标签  
plt.xlabel("SHAP Value", fontsize=18, fontweight='bold')  
plt.xticks(fontsize=18, fontweight='bold')  
plt.yticks(fontsize=18, fontweight='bold')  
  
# 去除右边和顶部边框  
ax = plt.gca()  
ax.spines['right'].set_visible(False)  
ax.spines['top'].set_visible(False)  
plt.savefig("shap_4.pdf", format='pdf', bbox_inches='tight',dpi=1200)  
plt.tight_layout()  
plt.show()

picture.image

为索引为0的单个样本绘制单样本SHAP值条形图，显示指定特征和“其他特征总和”对模型预测的贡献大小（从上到下按设定顺序排列），并在图中标注每个SHAP值的具体数值，文献中图6形式

  
shap_values_selected = shap_values_df.loc[9, selected_features]  
other_features = shap_values_df.drop(columns=selected_features).iloc[9, :]  
other_sum = other_features.sum()  
ordered_features = selected_features + ['Other Features (Sum)']  
shap_values_ordered = pd.Series(  
    list(shap_values_selected) + [other_sum],  
    index=ordered_features  
)  
  
plt.figure(figsize=(12, 8))  
cmap = plt.cm.get_cmap("coolwarm")  
norm = plt.Normalize(vmin=shap_values_ordered.min(), vmax=shap_values_ordered.max())  
colors = [cmap(norm(v)) for v in shap_values_ordered]  
ax = plt.barh(y=shap_values_ordered.index, width=shap_values_ordered.values,  
              color=colors, height=0.8)  
plt.gca().invert_yaxis()  
for i, v in enumerate(shap_values_ordered.values):  
    plt.text(v + 0.001, i, f"{v:.2f}", va='center',  
             fontsize=18, fontweight='bold', color='black')  
plt.title("Prob.=0.76", fontsize=23, fontweight='bold', loc='left')  
plt.xlabel("SHAP Value", fontsize=18, fontweight='bold')  
plt.xticks(fontsize=18, fontweight='bold')  
plt.yticks(fontsize=18, fontweight='bold')  
ax = plt.gca()  
ax.spines['right'].set_visible(False)  
ax.spines['top'].set_visible(False)  
plt.savefig("shap_5.pdf", format='pdf', bbox_inches='tight',dpi=1200)  
plt.tight_layout()  
plt.show()