生存分析中的机器学习应用：从特征筛选、多模型建模到SHAP解释完整流程教学 - 文章 - 开发者社区

picture.image

✨ 欢迎关注 ✨

本节介绍：生存分析中的机器学习应用：从特征筛选、多模型建模到SHAP解释完整流程教学。数据采用模拟数据，作者根据个人对机器学习的理解进行代码实现与图表输出，仅供参考。为单独付费项目。需要的朋友可关注公众号文末提供的购买方式。购买前请咨询，避免不必要的问题。

✨ 项目流程 ✨

这是一个完整的生存分析机器学习流程，首先通过数据预处理，将生存时间和事件状态转化为适合生存分析的格式。接着，使用随机生存森林模型对数据进行训练，并通过计算C-index评估模型在训练集和测试集上的表现。同时，评估特征的重要性，并进行逐步特征选择，选择最佳特征组合以提高模型性能。接下来，通过Cox比例风险模型、Fast Kernel SVM、梯度提升生存分析和额外生存树等多种生存分析模型进行训练和优化，并比较其在训练集和测试集上的表现。随后，通过绘制ROC曲线和时间依赖性AUC曲线进一步评估不同模型的效果。确定最优模型生存机器学习模型，最后使用SHAP值对该模型进行解释性分析，帮助理解各个特征在生存预测中的作用，提升模型的透明度

✨ 数据预处理 ✨

在数据预处理阶段，数据集不存在缺失值或异常值，且各特征的范围差异不大，因此未进行标准化处理。数据直接进行了划分，将特征变量与目标变量（生存时间和事件状态）分开，并将生存时间和事件状态转化为适合生存分析的格式，确保数据能直接用于后续的模型训练和分析

✨ 特征筛选 ✨

picture.image

在特征筛选阶段，原始数据中包含147个特征，属于高维度样本，这可能导致模型训练过程中的计算复杂度增加。为了优化模型性能，采用了随机生存森林（RSF）模型对特征的贡献进行排名。通过逐步特征选择的过程，选择最佳的特征组合，以提高模型的预测效果。最终，经过评估，选取了6个最重要的特征，作为后续多模型构建的输入特征。这个过程有效地减少了维度并提高了模型的表现

✨ 模型构建 ✨

picture.image

根据选取的6个最重要的特征，构建了五种不同的生存分析模型：Cox比例风险模型、Fast Kernel SVM、梯度提升生存分析、随机生存森林以及额外生存树。在这些模型中，除了Cox模型外，其他四个模型都进行了K折交叉验证和网格搜索调参，以找到最佳的超参数配置。最终，通过比较各个模型的时间依赖性AUC曲线，发现随机生存森林（AUC = 0.9148）模型表现最优，此模型展示了在不同时间点的预测效果，并且在AUC值上优于其他模型，证明其在生存分析中的较好预测能力

picture.image

接下来也绘制了在特定时间点的ROC曲线，利用生存分析模型预测的风险评分来评估模型的表现。通过计算不同模型在测试集上的AUC值，并在给定的时间点绘制ROC曲线，使得可以对比不同生存分析模型在该时间点的预测效果，也就类似于传统的二分类ROC曲线

picture.image

根据最终的C-index图表，可以看出不同生存分析模型在训练集和测试集上的表现。其中，随机生存森林（Random Survival Forest）模型在训练集和测试集上都表现出色，具有最高的C-index值（训练集为0.9660，测试集为0.8468），表明其在生存分析任务中具有最强的预测能力。与其他模型相比，随机生存森林在保持高训练集一致性的同时，在测试集上的性能也较为稳定，因此被确定为最优模型

✨ 最优模型样本绘制 ✨

picture.image