期刊配图：如何利用分组水平条形图比较多个模型在不同评估指标上的表现 - 文章 - 开发者社区

picture.image

✨ 欢迎关注Python机器学习AI ✨

本节介绍：如何利用分组水平条形图比较多个模型在不同评估指标上的表现，数据采用模拟数据无任何现实意义，作者根据个人对机器学习的理解进行代码实现与图表输出，仅供参考。完整数据和代码将在稍后上传至交流群，成员可在交流群中获取下载。需要的朋友可关注公众文末提供的获取方式。文末提供高效的AI工具~！点赞、推荐参与文末书籍包邮赠送~！

✨ 参考信息 ✨

picture.image

利用分组水平条形图可视化通过多个模型（如XGB、SVM、RF、KNN、DT、CNN）在不同评估指标（MAE、RMSE、R²）上的表现进行对比分析，展示在不同数据集上的训练和测试结果，从而帮助选择最佳模型进行预测分析，下图为仿图实现

picture.image

✨ 基础代码实现 ✨

  
import pandas as pd  
import numpy as np  
import matplotlib.pyplot as plt  
plt.rcParams['font.family'] = 'Times New Roman'  
plt.rcParams['axes.unicode_minus'] = False  
import warnings  
# 忽略所有警告  
warnings.filterwarnings("ignore")  
  
path = r"2025-10-10公众号Python机器学习AI.csv"  
df = pd.read_csv(path, index_col=0)  
from sklearn.model_selection import train_test_split  
# 划分特征和目标变量  
X = df.drop(['log_price', 'UTM_X', 'UTM_Y'], axis=1)    
y = df['log_price']    
  
# 划分训练集和测试集  
X_train, X_test, y_train, y_test = train_test_split(X,  y,  test_size=0.3,  random_state=42)  
from sklearn.preprocessing import StandardScaler  
from xgboost import XGBRegressor  
from sklearn.svm import SVR  
from sklearn.ensemble import RandomForestRegressor  
from sklearn.neighbors import KNeighborsRegressor  
from sklearn.tree import DecisionTreeRegressor  
  
# 标准化  
scaler = StandardScaler()  
X_train_scaled = scaler.fit_transform(X_train)  
X_test_scaled = scaler.transform(X_test)  
  
# XGBoost  
xgb_model = XGBRegressor(n_estimators=500, learning_rate=0.1, max_depth=6, objective='reg:squarederror')  
xgb_model.fit(X_train_scaled, y_train)  
xgb_pred = xgb_model.predict(X_test_scaled)  
  
# 支持向量机   
svm_model = SVR(kernel='rbf', C=1.0, epsilon=0.1)  
svm_model.fit(X_train_scaled, y_train)  
svm_pred = svm_model.predict(X_test_scaled)  
  
# 随机森林  
rf_model = RandomForestRegressor(n_estimators=500, max_depth=6, random_state=42)  
rf_model.fit(X_train_scaled, y_train)  
rf_pred = rf_model.predict(X_test_scaled)  
  
#  K近邻  
knn_model = KNeighborsRegressor(n_neighbors=5)  
knn_model.fit(X_train_scaled, y_train)  
knn_pred = knn_model.predict(X_test_scaled)  
  
# 决策树   
dt_model = DecisionTreeRegressor(max_depth=6, random_state=42)  
dt_model.fit(X_train_scaled, y_train)  
dt_pred = dt_model.predict(X_test_scaled)

对给定数据集进行特征标准化，并使用五种回归模型（XGBoost、支持向量机、随机森林、K近邻、决策树）进行训练和预测，所有模型都使用默认的超参数设置，没有进行任何参数调整

进行标准化主要是考虑到SVM和K近邻（KNN）对特征的量纲较为敏感。SVM和KNN都依赖于距离度量（如RBF核函数或欧氏距离），因此特征的尺度差异可能导致模型性能不稳定。标准化可以确保所有特征在相同的尺度上，从而帮助SVM和KNN更好地进行学习和预测

虽然其他模型如XGBoost、随机森林等在一定程度上对特征的量纲变化不太敏感，但在这里统一进行标准化也是一个常见的做法，确保所有模型都在相同的条件下进行训练

  
from sklearn.metrics import mean_absolute_error, mean_squared_error, r2_score  
  
# 模型列表  
models = {  
    'XGB': xgb_model,  
    'SVM': svm_model,  
    'RF': rf_model,  
    'KNN': knn_model,  
    'DT': dt_model  
}  
  
# 初始化一个空字典，用于存储每个模型的指标  
metrics = {}  
  
# 遍历每个模型，计算其训练和测试集的 MAE, RMSE 和 R2  
for model_name, model in models.items():  
    # 获取模型的预测结果  
    pred_train = model.predict(X_train_scaled)  
    pred_test = model.predict(X_test_scaled)  
  
    # 计算并存储模型的指标  
    metrics[model_name] = {  
        'Train MAE': mean_absolute_error(y_train, pred_train),  
        'Test MAE': mean_absolute_error(y_test, pred_test),  
        'Train RMSE': mean_squared_error(y_train, pred_train, squared=False),  
        'Test RMSE': mean_squared_error(y_test, pred_test, squared=False),  
        'Train R2': r2_score(y_train, pred_train),  
        'Test R2': r2_score(y_test, pred_test)  
    }  
  
metrics_df = pd.DataFrame(metrics).T  
metrics_df

picture.image

遍历前面训练的回归模型，计算并存储每个模型在训练集和测试集上的MAE、RMSE和R²指标

  
models = list(data.keys())  
n_models = len(models)  
bar_width = 0.2  
index = np.arange(n_models) * 1.5 # 增加模型之间的间距  
  
fig, ax = plt.subplots(figsize=(10, 8))  
  
 ......  
  
# 设置Y轴标签  
ax.set_yticks(index)  
ax.set_yticklabels(models, fontsize=15, weight='bold')  
  
# 调整X轴范围以适应你的数据，R2值最高为1，其他值较小  
ax.set_xlim([-1.0, 1.0])  
  
# 添加垂直分割线  
ax.axvline(x=0, color='black', linewidth=0.8)  
  
# 添加Train/Test标签  
ax.text(-0.5, ax.get_ylim()[1] + 0.5, 'Train', ha='center', va='bottom', fontsize=15, weight='bold')  
ax.text(0.5, ax.get_ylim()[1] + 0.5, 'Test', ha='center', va='bottom', fontsize=15, weight='bold')  
  
# 添加指标图例  
handles = [plt.Rectangle((0,0),1,1, color='mistyrose'), plt.Rectangle((0,0),1,1, color='lightblue'), plt.Rectangle((0,0),1,1, color='lightsalmon'),  
           plt.Rectangle((0,0),1,1, color='lightcoral'), plt.Rectangle((0,0),1,1, color='steelblue'), plt.Rectangle((0,0),1,1, color='sandybrown')]  
labels = ['MAE', 'RMSE', 'R²', 'MAE', 'RMSE', 'R²']  
ax.legend(handles, labels, loc='upper right', bbox_to_anchor=(0.7, 1.2),   
          frameon=False, ncol=2, prop={'size': 15, 'weight': 'bold'})  # 图例字体大小和加粗  
  
# 隐藏右侧和顶部的边框  
ax.spines['right'].set_visible(False)  
ax.spines['top'].set_visible(False)  
ax.spines['left'].set_visible(False)  # 隐藏左侧边框，因为模型名称在它上面  
ax.spines['bottom'].set_visible(True)  # 隐藏底部边框，X轴标签会取代它  
  
# 隐藏Y轴刻度线，保留标签  
ax.tick_params(axis='y', length=0)  
ax.tick_params(axis='x', labelsize=15)  # 调整X轴刻度标签大小  
plt.tight_layout()  
plt.savefig("OVER.pdf", format='pdf', bbox_inches='tight', dpi=1200)  
plt.show()