高斯混合模型回归（Gaussian Mixture Model Regression，GMM回归）

高斯混合模型（GMM）是一种概率模型，它假设数据是由多个高斯分布的混合组成的。在高斯混合回归中，聚类与回归被结合成一个联合模型：

聚类部分 --- 使用高斯混合模型进行聚类，识别数据的不同簇。
回归部分 --- 对每个簇中的数据使用回归方法来建模，通常是线性回归或非线性回归。

GMM回归不仅能捕捉数据的聚类结构，还能进行回归预测，适用于处理具有复杂分布的数据。

下面是一个简单的高斯混合模型回归（GMM回归）的Python示例。在这个示例中，我们将使用GaussianMixture模型进行数据的聚类，然后在每个聚类中使用线性回归进行回归预测。

代码步骤：

生成数据：首先，生成一些具有非线性关系的样本数据。
高斯混合模型聚类 ：使用GaussianMixture对数据进行聚类。
在每个聚类中进行回归：在每个聚类中的数据上训练一个回归模型（例如线性回归）。
预测：对新样本进行聚类预测并使用相应的回归模型进行回归。

示例代码：

python 复制代码

import numpy as np
import matplotlib.pyplot as plt
from sklearn.mixture import GaussianMixture
from sklearn.linear_model import LinearRegression
from sklearn.datasets import make_regression
from sklearn.model_selection import train_test_split

# 1. 生成一些数据
n_samples = 300
X, y = make_regression(n_samples=n_samples, n_features=1, noise=10, random_state=42)

# 添加一些非线性扰动
y = y + 50 * np.sin(X).ravel()

# 2. 高斯混合模型聚类
n_components = 3  # 假设数据可以分成3个簇
gmm = GaussianMixture(n_components=n_components, random_state=42)
gmm.fit(X)  # 对数据进行聚类

# 预测每个数据点属于哪个簇
cluster_labels = gmm.predict(X)

# 3. 在每个簇中训练回归模型
regressors = {}
for i in range(n_components):
    # 选取当前簇的数据
    X_cluster = X[cluster_labels == i]
    y_cluster = y[cluster_labels == i]
    
    # 对每个簇的样本拟合线性回归模型
    regressor = LinearRegression()
    regressor.fit(X_cluster, y_cluster)
    regressors[i] = regressor

# 4. 可视化数据和回归模型
plt.figure(figsize=(10, 6))
plt.scatter(X, y, c=cluster_labels, cmap='viridis', marker='o', edgecolor='k', s=50)
plt.title("GMM Clustering and Regression", fontsize=16)
plt.xlabel("X", fontsize=12)
plt.ylabel("y", fontsize=12)

# 绘制每个聚类的回归线
X_range = np.linspace(X.min(), X.max(), 1000).reshape(-1, 1)
for i in range(n_components):
    y_pred = regressors[i].predict(X_range)
    plt.plot(X_range, y_pred, label=f'Cluster {i} Regression', linewidth=2)

plt.legend()
plt.show()

# 5. 使用训练好的回归模型进行预测
# 假设我们有新的样本
X_new = np.array([[0.1], [1.5], [3.0]])

# 对新的样本进行聚类预测
new_cluster_labels = gmm.predict(X_new)

# 对每个样本使用对应簇的回归模型进行预测
y_new_pred = np.array([regressors[label].predict(X_new[i].reshape(1, -1)) for i, label in enumerate(new_cluster_labels)])

print("Predictions for new samples:", y_new_pred.ravel())

代码说明：

生成数据 ：我们使用make_regression生成一些线性数据，然后添加了一个非线性扰动（50 * np.sin(X)）来模拟更复杂的关系。
聚类：使用GaussianMixture模型将数据分为3个簇。GaussianMixture模型会根据数据的分布情况进行高斯分布的拟合。
回归：对于每个簇，我们单独训练一个线性回归模型。每个簇的数据都会拟合一个单独的回归模型，从而使得每个簇内的回归结果更加贴合数据的局部模式。
预测：通过预测新样本所属的簇，然后使用对应簇中的回归模型进行预测。
可视化：展示了数据点、每个簇的回归线以及数据的聚类分布。

运行结果：

聚类可视化：图中不同颜色的点表示数据被分成不同的簇，每个簇的数据分布和回归线是不同的。
回归预测：对于新样本，我们首先确定它属于哪个簇，然后根据该簇的回归模型进行预测。

适用场景：

当数据集存在多个模式或子群体时，使用高斯混合模型进行聚类，并在每个簇内训练单独的回归模型，有助于提高回归性能。
该方法适合数据分布复杂且呈现非线性关系的场景。

这个示例只是一个简单的实现，您可以根据需要进行更复杂的回归模型设计（例如，非线性回归模型、决策树回归等）以及调整高斯混合模型的超参数。