Eli5解释：通过随机打乱特征评估其对模型性能的重要性 - 文章 - 开发者社区

picture.image

✨ 欢迎关注 ✨

本节介绍： Eli5解释：通过随机打乱特征评估其对模型性能的重要性。数据采用模拟数据，作者根据个人对机器学习的理解进行代码实现与图表输出，仅供参考。完整数据和代码将在稍后上传至交流群，成员可在交流群中获取下载。需要的朋友可关注公众文末提供的获取方式

。购买前请咨询，避免不必要的问题。

✨ Eli5介绍 ✨

Eli5是一个用于解释机器学习模型的Python库，旨在通过可视化和简洁的方式帮助理解模型的决策过程，特别是对于黑箱模型（如随机森林、梯度提升机、神经网络等）。它提供了多种方法来解释和展示模型的内部机制，尤其适用于模型特征的重要性分析、预测结果的解释等，主要功能包含：特征重要性评估、模型解释、文本和图像解释，这里主要介绍 Permutation Importance 方法，通过打乱特征值来评估每个特征对模型性能的贡献。它可以用于任何监督学习模型，通过评估特征在不同数据集上的表现变化来显示其重要性

✨ 代码实现 ✨

  
import pandas as pd  
import numpy as np  
import matplotlib.pyplot as plt  
plt.rcParams['font.family'] = 'Times New Roman'  
plt.rcParams['axes.unicode_minus'] = False  
import warnings  
# 忽略所有警告  
warnings.filterwarnings("ignore")  
df = pd.read_excel('2025-7-13-公众号Python机器学习AI.xlsx')  
from sklearn.model_selection import train_test_split  
  
# 划分特征和目标变量  
X = df.drop(['Outcome'], axis=1)    
y = df['Outcome']    
# 划分训练集和测试集  
X_train, X_test, y_train, y_test = train_test_split(  
    X,    
    y,   
    test_size=0.3,   
    random_state=42,   
    stratify=df['Outcome']   
)  
from sklearn.ensemble import RandomForestClassifier  
from sklearn.model_selection import GridSearchCV  
  
# 初始化随机森林分类模型  
model_rf = RandomForestClassifier(random_state=42, verbose= -1)  
  
param_grid_rf = {  
    'n_estimators': [50, 100, 200],       # 树的数量  
    'max_depth': [10, 20, None],           # 最大深度  
    'min_samples_split': [2, 5, 10],       # 分割节点的最小样本数  
    'min_samples_leaf': [1, 2, 4],        # 叶节点的最小样本数  
    'verbose': [True, False]                 
}  
  
# 使用 GridSearchCV 进行网格搜索和 k 折交叉验证  
grid_search_rf = GridSearchCV(  
    estimator=model_rf,  
    param_grid=param_grid_rf,  
    scoring='neg_log_loss',  # 评价指标为负对数损失  
    cv=5,                    # 5 折交叉验证  
    n_jobs=-1,               # 并行计算  
    verbose=1                # 输出详细进度信息  
)  
  
# 训练模型  
grid_search_rf.fit(X_train, y_train)  
  
# 使用最优参数训练模型  
best_model_rf = grid_search_rf.best_estimator_  
from sklearn.tree import export_graphviz  
from subprocess import call  
from IPython.display import Image  
  
# 选择随机森林模型的第一棵树  
estimator = best_model_rf.estimators_[1]  
  
# 获取特征名称  
feature_names = [i for i in X_train.columns]  
  
# 将目标变量转换为字符串标签  
y_train_str = y_train.astype('str')  
y_train_str[y_train_str == '0'] = 'no disease'  
y_train_str[y_train_str == '1'] = 'disease'  
y_train_str = y_train_str.values  
export_graphviz(estimator, out_file='tree.dot',   
                feature_names=feature_names,  
                class_names=y_train_str,  
                rounded=True, proportion=True,   
                label='root',  
                precision=2, filled=True)

picture.image

这里训练了一个随机森林分类模型，使用网格搜索优化超参数，并将最优模型中的一棵决策树进行可视化

picture.image

由于本身树过于复杂这里解释局部，通过不同的特征来判断是否患有疾病，这部分决策树通过Age（年龄）、Insulin（胰岛素）、Glucose（血糖）和Pregnancies（怀孕次数）等特征来预测是否患有疾病。首先，树根据Age <= 42.5进行分裂，若满足此条件，再通过Insulin <= 153.5分裂，预测结果为'disease'，准确率为 78.8%。若Age> 42.5，则继续根据Age <= 53.5分裂，最终预测为'no disease'，准确率为21.2%。树的分裂层次展示每个特征对预测结果的影响，每个叶节点还给出了相应的类别概率，其它节点类似一直到遍历完所有节点得出最终结果

  
# 获取特征重要性  
feature_importance = best_model_rf.feature_importances_  
  
# 将特征重要性与特征名称进行匹配  
feature_importance_df = pd.DataFrame({  
    'Feature': X_train.columns,  
    'Importance': feature_importance  
})  
  
# 按重要性排序  
feature_importance_df = feature_importance_df.sort_values(by='Importance', ascending=False)  
feature_importance_df

picture.image

这里通过best_model_rf.feature_importances_ 获取训练好的随机森林模型的特征重要性，但是这个贡献度并不是直接针对模型性能，并不知道特征如何影响模型性能如模型准确率等

  
import eli5   
from eli5.sklearn import PermutationImportance  
  
# 创建一个 PermutationImportance 实例并拟合模型  
# PermutationImportance 是一种模型解释工具，能够通过随机打乱特征值来评估每个特征对模型性能的贡献  
# 这里，model 是已训练好的机器学习模型，x_test 和 y_test 是用于评估模型性能的测试数据和标签  
# n_ite迭代多少次  
perm = PermutationImportance(best_model_rf, n_iter=20 , scoring='accuracy',random_state = 1314).fit(X_test, y_test)  
  
# 使用 eli5 显示特征的重要性  
# 该函数将展示每个特征的贡献度，通过打乱每个特征并观察性能下降的幅度来计算每个特征的重要性  
weights = eli5.show_weights(perm, feature_names=X_train.columns.tolist())  
weights

picture.image

这里使用 PermutationImportance 方法通过随机打乱特征值来评估每个特征对模型准确度的贡献，显示各特征对模型性能的重要性，结果表明不同特征的贡献度和标准差（std）

PermutationImportance和feature_importances_ 都是评估特征重要性的方法，但它们的侧重点不同。PermutationImportance通过打乱特征值并观察模型性能的变化来评估特征对模型预测能力的贡献，它直接反映特征对模型性能的影响（如这里的scoring='accuracy'）。而feature_importances_ 反映的是特征在模型训练过程中的分裂贡献，更多关注特征在构建模型时的作用

PermutationImportance可能更适合用于特征选择，尤其是关注如何通过特征优化提升模型性能时，因为往往特征筛选结合特征排名进行递归

  
plot_df = feature_importances.iloc[::-1]  
# 根据权重的正负创建颜色列表  
colors = ['tomato' if x < 0 else 'steelblue' for x in plot_df['Weight']]  
fig, ax = plt.subplots(figsize=(10, 8))  
# 绘制水平柱状图，并添加误差条  
ax.barh(  
    plot_df.index,  
    plot_df['Weight'],  
    xerr=plot_df['std'],  
    color=colors,  
    align='center',  
    capsize=5  # 给误差条添加一个帽子，让它更清晰  
)  
ax.set_xlabel('Weight', fontsize=12)  
# 在 x=0 的位置画一条垂直虚线，用于清晰地区分正负权重  
ax.axvline(0, color='gray', linestyle='--', linewidth=1)  
# 优化布局  
plt.tight_layout()  
plt.show()