期刊配图:回归预测模型性能与残差分布可视化分析

机器学习大模型向量数据库

picture.image

✨ 欢迎关注Python机器学习AI ✨

本节介绍: 回归预测模型性能与残差分布的可视化分析 。数据采用模拟数据,作者根据个人对机器学习的理解进行代码实现与图表输出,细节并不保证与原文一定相同,仅供参考。 详细数据和代码、文献将在稍后上传至交流群,付费成员可在交流群中获取下载。需要的朋友可关注公众文末提供的购买方式。 购买前请咨询,避免不必要的问题。 文末点赞、推荐、转发参与免费包邮赠书~

✨ 论文原图 ✨

picture.image

这个图展示了六种回归模型在训练集和测试集上的预测效果。图中共有六个子图,每个子图表示一种回归模型的预测结果,模型分别是:MLR(多元线性回归)、SVR(支持向量回归)、RF(随机森林)、XGBoost(极端梯度提升)、DSO(深度监督回归)和uDSR(无监督深度监督回归)。每个子图中,x轴是实际值,y轴是预测值,训练集和测试集的点分别用蓝色和橙色表示。子图中还包含了一条虚线,表示理想的预测结果(预测值与实际值完全一致)。此外,图中有残差区域,表示预测值与实际值之间的差异,用于评估模型的拟合效果并指导优化过程。同时,每个子图中还标注了RMSE(均方根误差)和MAE(平均绝对误差)指标,分别表示模型在训练集和测试集上的误差大小。这些信息帮助比较不同模型在训练和测试集上的表现,评估模型的泛化能力,并判断是否存在过拟合或欠拟合现象。

✨ 仿图 ✨

picture.image

模拟可视化通过预测分布的直方图展示了数据的分布情况,如果模型性能良好,预测值的分布和真实值的分布应该保持一致;同时,残差图展示了训练集和测试集各自的残差分布,而不仅仅是一个整体的残差情况

✨ 基础代码实现 ✨

  
import seaborn as sns  
from sklearn import metrics  
  
# 创建一个包含训练集和测试集真实值与预测值的数据框  
data_train = pd.DataFrame({  
    'True': y_train,  
    'Predicted': y_pred_train,  
    'Data Set': 'Train'  
})  
  
data_test = pd.DataFrame({  
    'True': y_test,  
    'Predicted': y_pred_test,  
    'Data Set': 'Test'  
})  
  
data = pd.concat([data_train, data_test])  
  
# 自定义调色板  
palette = {'Train': '#b4d4e1', 'Test': '#f4ba8a'}  
  
# 创建 JointGrid 对象  
plt.figure(figsize=(8, 6), dpi=1200)  
g = sns.JointGrid(data=data, x="True", y="Predicted", hue="Data Set", height=10, palette=palette)  
  
# 绘制中心的散点图  
g.plot_joint(sns.scatterplot, alpha=0.5)  
# 添加训练集的回归线  
sns.regplot(data=data_train, x="True", y="Predicted", scatter=False, ax=g.ax_joint, color='#b4d4e1', label='Train Regression Line')  
# 添加测试集的回归线  
sns.regplot(data=data_test, x="True", y="Predicted", scatter=False, ax=g.ax_joint, color='#f4ba8a', label='Test Regression Line')  
# 添加边缘的柱状图  
g.plot_marginals(sns.histplot, kde=False, element='bars', multiple='stack', alpha=0.5)  
  
# 添加拟合优度文本在右下角  
ax = g.ax_joint  
ax.text(0.95, 0.1, f'Train $R^2$ = {r2_train:.3f}', transform=ax.transAxes, fontsize=12,  
        verticalalignment='bottom', horizontalalignment='right', bbox=dict(boxstyle="round,pad=0.3", edgecolor="black", facecolor="white"))  
ax.text(0.95, 0.05, f'Test $R^2$ = {r2_test:.3f}', transform=ax.transAxes, fontsize=12,  
        verticalalignment='bottom', horizontalalignment='right', bbox=dict(boxstyle="round,pad=0.3", edgecolor="black", facecolor="white"))  
# 在左上角添加模型名称文本  
ax.text(0.75, 0.99, 'Model = GBDT', transform=ax.transAxes, fontsize=12,  
        verticalalignment='top', horizontalalignment='left', bbox=dict(boxstyle="round,pad=0.3", edgecolor="black", facecolor="white"))  
  
# 添加中心线  
ax.plot([data['True'].min(), data['True'].max()], [data['True'].min(), data['True'].max()], c="black", alpha=0.5, linestyle='--', label='x=y')  
ax.legend()  
plt.savefig("TrueFalse.pdf", format='pdf', bbox_inches='tight')  
plt.show()

picture.image

使用Seaborn绘制了一个包含训练集和测试集预测结果的联合分布图,通过散点图、回归线、边缘柱状图展示了预测值与真实值之间的关系,并在图中显示了模型的拟合优度(R^2值)和模型名称

接下来优化代码,结合残差图的可视化,以帮助更直观地评估模型的预测效果和误差分布。完整代码已上传至交流群

picture.image

✨ 该文章案例 ✨

picture.image

在上传至交流群的文件中,像往期文章一样,将对案例进行逐步分析,确保读者能够达到最佳的学习效果。内容都经过详细解读,帮助读者深入理解模型的实现过程和数据分析步骤,从而最大化学习成果。

同时,结合提供的免费AI聚合网站进行学习,能够让读者在理论与实践之间实现融会贯通,更加全面地掌握核心概念。

✨ 购买介绍 ✨

本节介绍到此结束,有需要学习数据分析和Python机器学习相关的朋友欢迎到淘宝店铺:Python机器学习AI,或添加作者微信deep_ML联系,购买作者的公众号合集。截至目前为止,合集已包含200多篇文章,购买合集的同时,还将提供免费稳定的AI大模型使用,包括但不限于ChatGPT、Deepseek、Claude等。

更新的内容包含数据、代码、注释和参考资料。 作者仅分享案例项目,不提供额外的答疑服务。项目中将提供详细的代码注释和丰富的解读,帮助您理解每个步骤 。 购买前请咨询,避免不必要的问题。

✨ 群友反馈 ✨

picture.image

✨ 淘宝店铺 ✨

picture.image

请大家打开淘宝扫描上方的二维码,进入店铺,获取更多Python机器学习和AI相关的内容,或者添加作者微信deep_ML联系 避免淘宝客服漏掉信息 ,希望能为您的学习之路提供帮助!

✨ 免费赠书 ✨

picture.image

picture.image

支持知识分享,畅享学习乐趣!特别感谢清华大学出版社 对本次赠书活动的鼎力支持!即日起,只需点赞、推荐、转发 此文章,作者将从后台随机抽取一位幸运儿,免费包邮赠送清华出版社提供的《DeepSeek移动端AI应用开发:基于Android与iOS》这本精彩书籍📚!

💡 赶快参与,一键三连,说不定你就是那位幸运读者哦!

往期推荐

Frontiers in Oncology:利用生存机器学习RSF模型预测患者预后模拟实现

期刊配图:相关系数+统计显著性的饼图可视化 美无需多言

期刊配图:通过SHAP组图解读模型探索不同类型特征和分组对模型的影响

机器学习在临床数据分析中的应用:从数据预处理到Web应用实现的完整流程教学

期刊配图:一区SCI常用数据缺失率展示图可视化

Psychiatry Research基于SHAP可解释性的机器学习模型构建与评估:混淆矩阵、ROC曲线、DCA与校准曲线分析

因果推断:注册行为对后续消费影响的因果推断分析案例

nature communications:基于Light GBM与随机森林结合的多模型特征选择方法

因果推断与机器学习结合:探索酒店预订取消的影响因素

期刊配图:回归模型性能与数据分布(核密度)可视化

picture.image

如果你对类似于这样的文章感兴趣。

欢迎关注、点赞、转发~

个人观点,仅供参考

0
0
0
0
关于作者

文章

0

获赞

0

收藏

0

相关资源
CV 技术在视频创作中的应用
本次演讲将介绍在拍摄、编辑等场景,我们如何利用 AI 技术赋能创作者;以及基于这些场景,字节跳动积累的领先技术能力。
相关产品
评论
未登录
看完啦,登录分享一下感受吧~
暂无评论