一区IF6.2期刊复现②：最优模型LightGBM组图SHAP揭示关键特征影响力机制 - 文章 - 开发者社区

picture.image

✨ 欢迎关注 ✨

本节介绍： LightGBM特征重要性及部分依赖分析进行模型解读，作者根据个人对机器学习的理解进行代码实现与图表输出，仅供参考。完整数据和代码将在稍后上传至交流群，成员可在交流群中获取下载。需要的朋友可关注公众文末提供的获取方式。获取前请咨询，避免不必要的问题。

✨ 文献信息 ✨

picture.image

在前文中——一区IF6.2期刊复现①：LightGBM特征重要性及部分依赖分析进行模型解读，已经详细解读了通过多模型比较后，LightGBM被选定为最优模型，并对其进行了 LightGBM模型特征重要性分析和部分依赖分析。接下来的部分将进一步深入分析LightGBM模型的SHAP结果，以全面理解各特征对糖尿病（DM）风险预测的贡献

SHAP 分析说明特征对DM风险预测的贡献。（A）SHAP瀑布图：显示每个特征对单个参与者预测的贡献。（B）SHAP决策图，单个参与者：可视化同一个体特征的累积效应，显示了每个变量如何影响预测的模型输出。（C）所有参与者的SHAP决策图：总结了所有参与者的 SHAP 值，展示了整体特征贡献。（D）SHAP汇总图：特征按其平均SHAP值进行排序，突出其整体重要性

picture.image

具有LOWESS曲线的SHAP散点图。每个点代表LightGBM模型中的单个SHAP值。红色曲线反映平滑的LOWESS拟合，蓝色垂直虚线表示SHAP风险拐点。（A）PFOA：临界值为-0.27，对应于2.48ng/ML 的实际值。（B）PFDE：临界值为-0.50，对应于0.17ng/ML的实际值。（C）PFOS：临界值为0.13，对应于13.26ng/ML的实际值。（D）PFNA：临界值为0.39，对应于 1.31 ng/ML 的实际值

✨ 基础代码 ✨

  
import pandas as pd  
import numpy as np  
import matplotlib.pyplot as plt  
plt.rcParams['font.family'] = 'Times New Roman'  
plt.rcParams['axes.unicode_minus'] = False  
import warnings  
# 忽略所有警告  
warnings.filterwarnings("ignore")  
df = pd.read_excel('2025-7-2-公众号Python机器学习AI.xlsx')  
from sklearn.model_selection import train_test_split  
  
# 划分特征和目标变量  
X = df.drop(['Outcome'], axis=1)    
y = df['Outcome']    
# 划分训练集和测试集  
X_train, X_test, y_train, y_test = train_test_split(  
    X,    
    y,   
    test_size=0.3,   
    random_state=42,   
    stratify=df['Outcome']   
)  
from lightgbm import LGBMClassifier  
from sklearn.model_selection import GridSearchCV  
# 初始化 LightGBM 分类模型  
model_lgbm = LGBMClassifier(random_state=42, verbose= -1)  
  
# 定义参数网格  
param_grid_lgbm = {  
    'n_estimators': [50, 100, 200],       # 树的数量  
    'learning_rate': [0.01, 0.1, 0.2],   # 学习率  
    'max_depth': [-1, 10, 20],           # 最大深度  
    'num_leaves': [31, 50, 100],         # 叶节点数  
    'min_child_samples': [10, 20, 30]    # 最小叶节点样本数  
}  
  
# 使用 GridSearchCV 进行网格搜索和 k 折交叉验证  
grid_search_lgbm = GridSearchCV(  
    estimator=model_lgbm,  
    param_grid=param_grid_lgbm,  
    scoring='neg_log_loss',  # 评价指标为负对数损失  
    cv=5,                    # 5 折交叉验证  
    n_jobs=-1,               # 并行计算  
    verbose=1                # 输出详细进度信息  
)  
  
# 训练模型  
grid_search_lgbm.fit(X_train, y_train)  
  
# 使用最优参数训练模型  
best_model_lgbm = grid_search_lgbm.best_estimator_

使用LightGBM模型，通过网格搜索和5折交叉验证来优化超参数，在模拟数据集上训练出一个最优的分类模型，以预测目标变量（Outcome），详细的模型解读还有模型性能评价指标输出等参考上一期文章——一区IF6.2期刊复现①：LightGBM特征重要性及部分依赖分析进行模型解读，因为是针对同一个项目数据模型参数随机种子一致，这里主要是为了SHAP实现训练模型

  
import shap  
explainer = shap.TreeExplainer(best_model_lgbm)  
shap_values = explainer.shap_values(X_test)  
# 计算shap值为Explanation格式  
shap_values_Explanation = explainer(X_test)  
plt.figure(figsize=(10, 5), dpi=1200)  
shap.plots.waterfall(shap_values_Explanation[0], show=False, max_display=8)  
plt.tight_layout()  
plt.savefig("waterfall.pdf", format='pdf', bbox_inches='tight', dpi=1200)  
plt.show()

picture.image

使用SHAP库计算模型在测试集上的shap值，这里提供了两种格式，并可视化LightGBM模型在测试集第一个样本上的特征贡献，也就是文献中的图（A）SHAP瀑布图：显示每个特征对单个参与者预测的贡献

  
# 绘制 SHAP 决策图  
plt.figure(figsize=(10, 5), dpi=1200)    
shap.decision_plot(explainer.expected_value, shap_values[0], X_test.iloc[0], show=False, link='logit')  
plt.savefig("decision_plot.pdf", format='pdf', bbox_inches='tight')  
plt.tight_layout()  
plt.show()

picture.image

接下来绘制试集第一个样本上的SHAP决策图，也就是文献中的图（B） SHAP决策图，单个参与者：可视化同一个体特征的累积效应，显示了每个变量如何影响预测的模型输出

  
# 绘制 SHAP 决策图  
plt.figure(figsize=(10, 5), dpi=1200)    
shap.decision_plot(explainer.expected_value, shap_values, X_test.columns, show=False)  
plt.tight_layout()  
plt.savefig("decision_plot_all.pdf", format='pdf', bbox_inches='tight', dpi=1200)  
plt.show()