顶刊复现：RSF生存随机森林模型在生存分析中的应用与SHAP解释 - 文章 - 开发者社区

picture.image

✨ 欢迎关注Python机器学习AI ✨

本节介绍：RSF生存随机森林模型在生存分析中的应用与SHAP解释，数据采用模拟数据无任何现实意义，作者根据个人对机器学习的理解进行代码实现与图表输出，仅供参考。完整数据和代码将在稍后上传至交流群，成员可在交流群中获取下载。需要的朋友可关注公众文末提供的获取方式。文末提供高效的AI工具~！点赞、推荐参与文末包邮赠书~！

✨ 论文信息 ✨

picture.image

在前文中——期刊复现：COX、XGB、RSF、GBSA与SSVM模型在生存分析中的应用与SHAP解释，已经通过说明在文献生存分析中最优的机器学习模型是XGBoost，并使用SHAP进行了解释。然而，在使用模拟数据集进行实验时，实际模型生存随机森林模型（RSF）在真实表现上最为出色。因此，在本文中，将针对这个在模拟数据集上表现最优的模型（RSF）进行相应的SHAP解释，作为扩展

✨ 基础代码 ✨

  
import pandas as pd  
import numpy as np  
import matplotlib.pyplot as plt  
plt.rcParams['font.family'] = 'Times New Roman'  
plt.rcParams['axes.unicode_minus'] = False  
import warnings  
# 忽略所有警告  
warnings.filterwarnings("ignore")  
df = pd.read_excel('2025-10-15公众号Python机器学习AI.xlsx')  
from sklearn.model_selection import train_test_split  
# 划分特征和目标变量  
X = df.drop(['OS', 'OS_State'], axis=1)    
y = df[['OS', 'OS_State']]    
# 划分训练集和测试集  
X_train, X_test, y_train, y_test = train_test_split(  
    X,    
    y,   
    test_size=0.3,   
    random_state=42,   
    stratify=df['OS_State']   
)  
# 将 y_train 和 y_test 转换为结构化数组  
y_train_struct = np.array(  
    list(zip(y_train['OS_State'] == 0, y_train['OS'].astype(float))),  
    dtype=[('cens', '?'), ('time', '<f8')]  
)  
  
y_test_struct = np.array(  
    list(zip(y_test['OS_State'] == 0, y_test['OS'].astype(float))),  
    dtype=[('cens', '?'), ('time', '<f8')]  
)  
from sksurv.util import Surv  
  
# 转换为 scikit-survival 的格式  
y_train_surv = Surv.from_arrays(event=~y_train_struct['cens'], time=y_train_struct['time'])  
y_test_surv = Surv.from_arrays(event=~y_test_struct['cens'], time=y_test_struct['time'])  
  
from sksurv.ensemble import RandomSurvivalForest  
from sklearn.metrics import make_scorer  
random_state = 1314  
# 创建 RandomSurvivalForest 模型，使用默认参数  
rsf = RandomSurvivalForest(random_state=random_state)  
  
# 直接训练模型，不进行网格搜索  
rsf.fit(X_train, y_train_surv)  
  
# 计算训练集和测试集的 C-index  
train_c_index_RSF = rsf.score(X_train, y_train_surv)  
test_c_index_RSF = rsf.score(X_test, y_test_surv)

使用随机生存森林（RSF）模型对生存分析数据进行训练，并计算训练集和测试集的C-index值，其他模型的复现请参考上一期文献复现——期刊复现：COX、XGB、RSF、GBSA与SSVM模型在生存分析中的应用与SHAP解释

  
import shap  
.......  
X_to_explain = X_test.to_numpy()  
try:  
    shap_values = explainer.shap_values(X_to_explain, nsamples='auto')  
    print("SHAP 值计算完成，形状:", shap_values.shape)  
except Exception as e:  
    print(f"计算 SHAP 值时发生错误: {e}")

使用SHAP库对生存随机森林（RSF）模型的预测结果进行解释，计算测试集（仅55个样本，32个特征）的SHAP值，然而，由于RSF模型的计算复杂性，相较于XGBoost，SHAP值计算耗时更长，约为7分钟，这也是为什么在前面——期刊复现：COX、XGB、RSF、GBSA与SSVM模型在生存分析中的应用与SHAP解释会提到文献最终选择了CPH模型作为风险分层和进一步分析的最佳模型

  
plt.figure(figsize=(10, 5))  
# 设置 max_display=20 限制显示前20个特征  
shap.summary_plot(  
    shap_values,   
    X_test,   
    plot_type="bar",   
    max_display=20,     
    show=False  
)  
  
plt.tight_layout()  
plt.savefig("SHAP-RSF-1.pdf", format='pdf',bbox_inches='tight', dpi=1200)  
plt.show()

picture.image

使用SHAP库绘制生存随机森林（RSF）模型在测试集上的前20个最重要特征的条形图，结果展示各特征对模型输出的平均影响程度，如：SDMA-ADMA_pos-140和2-Ketohexanoic acid_neg-005 是影响模型预测结果最重要的特征

  
plt.figure()  
shap.summary_plot(  
    shap_values,  
    X_test,  
    feature_names=X_test.columns,  
    plot_type="dot",  
    max_display=20,     
    show=False  
)  
  
plt.savefig("SHAP-RSF-2.pdf", format='pdf',bbox_inches='tight', dpi=1200)  
plt.show()