nature communications：基于Light GBM与随机森林结合的多模型特征选择方法 - 文章 - 开发者社区

picture.image

✨ 欢迎关注Python机器学习AI ✨

本节介绍：基于 Nature Communications 论文特征筛选实现流程及可视化输出模拟实现。数据采用模拟数据，作者根据个人对机器学习的理解进行代码实现与图表输出，细节并不保证与原文一定相同，仅供参考。

详细数据和代码将在稍后上传至交流群，付费群成员可在交流群中获取下载。需要的朋友可关注公众文末提供的购买方式。

购买前请咨询，避免不必要的问题。

✨ 论文信息 ✨

picture.image

✨ 论文方法 ✨

picture.image

图表展示了基于不同特征数量选择的四种模型的急性肾损伤（AKI）预测性能。图中的AUC（曲线下面积）随着特征数量的增加而变化，误差条表示95%的置信区间

图(A)：展示了使用Light GBM作为特征选择方法，并与四种模型（逻辑回归、随机森林、XGBoost和LightGBM）组合的结果。随着特征数量的增加，AUC值逐渐提高，但超过约20个特征后，AUC的提升变得有限。
图(B)：展示了使用随机森林作为特征选择方法的情况，结合了相同的四种模型。结果趋势与图(A)相似，超过20个特征后，AUC的提升也趋于平稳。

从两幅图中可以得出结论，超过20个特征后，模型的AUC表现不再显著提升，因此20个特征可能是预测精度的最佳特征数量特征数量。

最终，研究团队选择了LightGBM作为特征选择方法，结合

随机森林（Random Forest）

模型进行特征选择和模型构建。这一组合在验证集中表现优于其他组合。通过实验评估，选择了20个常见的临床特征作为最终模型的输入，这部分参考往期文章—— nature communications：结合LightGBM特征选择与RF模型的机器学习方法及SHAP解释

✨ 模拟实现 ✨

picture.image

基于文献中的方法，采用模拟数据进行的复现。左侧的图（A）和右侧的图（B）展示了使用不同的特征筛选方法（分别为Light GBM和随机森林）在模拟数据上的模型表现。通过逐渐增加特征数量，图中显示了不同模型的AUC变化情况。根据文献中的方法，这些图表的目的是分析在不同数量的特征下，模型的性能如何变化，当然这里使用的不是文献中的实际数据而是采用模拟数据采用相同的方法模实现

✨ 该文章案例 ✨

picture.image

在上传至交流群的文件中，像往期文章一样，将对案例进行逐步分析，确保读者能够达到最佳的学习效果。内容都经过详细解读，帮助读者深入理解模型的实现过程和数据分析步骤，从而最大化学习成果。

同时，结合提供的免费AI聚合网站进行学习，能够让读者在理论与实践之间实现融会贯通，更加全面地掌握核心概念。

✨ 购买介绍 ✨

本节介绍到此结束，有需要学习数据分析和Python机器学习相关的朋友欢迎到淘宝店铺：Python机器学习AI，或添加作者微信deep_ML联系，购买作者的公众号合集。截至目前为止，合集已包含200多篇文章，购买合集的同时，还将提供免费稳定的AI大模型使用，包括但不限于ChatGPT、Deepseek、Claude等。

更新的内容包含数据、代码、注释和参考资料。

作者仅分享案例项目，不提供额外的答疑服务。项目中将提供详细的代码注释和丰富的解读，帮助您理解每个步骤

。

购买前请咨询，避免不必要的问题。

✨ 群友反馈 ✨

picture.image