当然,我可以提供一个更简单的示例,这个示例将仅使用matplotlib
和numpy
来绘制散点图,并使用numpy
的polyfit
函数(尽管它主要用于多项式拟合,但在这里我们用它来进行线性拟合)来添加趋势线。然后,我们将手动计算相关系数(使用numpy
的corrcoef
或scipy
的pearsonr
)和RMSE(但请注意,在这个简单的例子中,RMSE的计算只是为了演示,因为通常我们不会将输入变量x
视为预测值)。
以下是简化的示例:
python
import numpy as np
import matplotlib.pyplot as plt
# 生成模拟数据
np.random.seed(0)
x = np.linspace(0, 10, 100) # 生成一个等差数列作为x值
y = 2 * x + 3 + np.random.randn(100) * 2 # 生成y值,与x线性相关但带有噪声
# 使用numpy的polyfit进行线性拟合(1表示一次多项式,即线性)
slope, intercept = np.polyfit(x, y, 1)
# 计算趋势线的y值
y_pred = slope * x + intercept
# 计算相关系数(使用numpy的corrcoef)
corr_matrix = np.corrcoef(x, y)
corr = corr_matrix[0, 1]
# 注意:在真实的应用场景中,你不会计算x和y之间的RMSE,因为x不是预测值。
# 但为了演示,我们仍然计算它。
rmse = np.sqrt(np.mean((y - x) ** 2)) # 这在实际中没有意义,只是为了演示
# 绘制散点图
plt.figure(figsize=(10, 6))
plt.scatter(x, y, color='blue', label='Data Points')
# 添加趋势线
plt.plot(x, y_pred, color='red', label='Trend Line')
# 添加相关系数和RMSE到图中(注意RMSE的标注只是为了演示)
plt.text(0.02, 0.95, f'Correlation Coefficient: {corr:.2f}', transform=plt.gca().transAxes, fontsize=12, color='green')
plt.text(0.02, 0.90, f'RMSE (for demonstration): {rmse:.2f}', transform=plt.gca().transAxes, fontsize=12, color='red')
# 添加趋势线方程到图中
plt.text(0.85, 0.05, f'Y = {slope:.2f}X + {intercept:.2f}', transform=plt.gca().transAxes, fontsize=12, color='black', ha='right')
# 设置图例、标题和坐标轴标签
plt.legend()
plt.title('Scatter Plot with Trend Line and Correlation')
plt.xlabel('X')
plt.ylabel('Y')
# 显示图形
plt.grid(True)
plt.show()
请注意以下几点:
- 在这个示例中,
x
是一个等差数列,而y
是根据x
的线性关系加上一些随机噪声生成的。 - 我们使用
np.polyfit
来拟合线性模型,并获取斜率(slope
)和截距(intercept
)。 - 相关系数是使用
np.corrcoef
计算的,该函数返回一个相关系数矩阵,其中corr_matrix[0, 1]
是x
和y
之间的相关系数。 - RMSE的计算在这里只是为了演示目的,因为在实际应用中,你通常会计算预测值与实际值之间的RMSE。在这个例子中,我们将
x
视为预测值来计算RMSE,但这在统计学上是没有意义的。 - 我们使用
plt.text
在图形上添加文本,包括相关系数、RMSE(仅为演示)和趋势线方程。