机器学习中的神经网络重难点！纯干货（上篇）

import tensorflow as tf
from tensorflow.keras import layers, models
import matplotlib.pyplot as plt

# 创建示例数据集
data = tf.keras.datasets.fashion_mnist
(train_images, train_labels), (test_images, test_labels) = data.load_data()

# 构建前馈神经网络
model = models.Sequential([
    layers.Flatten(input_shape=(28, 28)),
    layers.Dense(128, activation='relu'),
    layers.Dense(10, activation='softmax')
])

# 编译模型
model.compile(optimizer='adam', loss='sparse_categorical_crossentropy', metrics=['accuracy'])

# 训练模型
history = model.fit(train_images, train_labels, epochs=10, validation_data=(test_images, test_labels))

# 绘制训练损失曲线
plt.plot(history.history['loss'], label='训练损失')
plt.plot(history.history['val_loss'], label='验证损失')
plt.xlabel('Einpochs')
plt.ylabel('损失')
plt.legend()
plt.show()

代码中使用了TensorFlow和Fashion MNIST数据集来创建一个前馈神经网络模型。

前馈神经网络是深度学习的基础，模拟了大脑中神经元的工作方式。通过学习权重和偏差，这些网络可以适应各种任务。

卷积神经网络

想象一下，你要辨认一张图片中的狗，你会先注意到图像的一些局部特征，如眼睛、鼻子、耳朵等，然后将这些特征组合在一起，最终确定这是一只狗。CNN就像模拟这个过程的机器。

CNN通过层层的计算，从图像中提取特征，然后将这些特征组合在一起来进行图像分类。这个过程就像你在拼图中找到每个小块的形状和颜色，最后把它们组合成完整的图像。

基本原理

卷积神经网络的核心思想是卷积操作。卷积是一种数学运算，它通过在输入图像上滑动一个小窗口（通常称为卷积核或滤波器）来检测图像中的特征。

这个卷积核会在图像上不断平移，每次计算一个局部区域的加权和，从而生成一个特征图。这个特征图的每个元素代表着检测到的特征的强度。

卷积操作具有局部性质，这意味着它只关注图像的一小部分，这与我们人类观察图像的方式相似。这也使得CNN对平移、旋转和缩放具有一定的不变性，因为它们可以检测到相同的特征，无论这些特征在图像中的位置如何变化。

一个示例

为了更好地理解，让我们考虑一个经典的图像分类问题：手写数字识别。

我们使用Python和TensorFlow来构建一个CNN模型，并将其应用于MNIST数据集，该数据集包含手写数字图像。

复制代码

import tensorflow as tf
from tensorflow.keras import layers, models
import matplotlib.pyplot as plt

# 载入MNIST数据集
mnist = tf.keras.datasets.mnist
(train_images, train_labels), (test_images, test_labels) = mnist.load_data()

# 创建卷积神经网络模型
model = models.Sequential([
    layers.Conv2D(32, (3, 3), activation='relu', input_shape=(28, 28, 1)),
    layers.MaxPooling2D((2, 2)),
    layers.Conv2D(64, (3, 3), activation='relu'),
    layers.MaxPooling2D((2, 2)),
    layers.Flatten(),
    layers.Dense(64, activation='relu'),
    layers.Dense(10, activation='softmax')
])

# 编译模型
model.compile(optimizer='adam',
              loss='sparse_categorical_crossentropy',
              metrics=['accuracy'])

# 训练模型
history = model.fit(train_images, train_labels, epochs=5,
                    validation_data=(test_images, test_labels))

# 可视化训练过程
plt.plot(history.history['accuracy'], label='accuracy')
plt.plot(history.history['val_accuracy'], label='val_accuracy')
plt.xlabel('Epochs')
plt.ylabel('accuracy')
plt.legend()
plt.show()

代码中演示了如何构建一个CNN模型，用于手写数字识别，以及如何训练该模型。

可以看到，准确率逐渐提高，这是因为CNN学会了从图像中提取特征。

卷积神经网络通过卷积操作来提取图像中的特征，从而实现图像分类等任务。

当然上述例子只是浅尝辄止，大家可以根据自己的实际情况进一步深入学习。

循环神经网络

循环神经网络（RNN）就像一个有记忆的模型，它可以处理序列数据，如文本、音频、时间序列等。通过不断地传递信息并保持内部状态，从而能够理解数据的上下文。

举个例子，假设你在阅读一本小说。你需要记住前几页的情节，因为它们可能会影响后面的故事发展。RNN就是模拟这种记忆的过程。

基本原理

RNN的基本构建块是神经元，它接受输入和内部状态，并输出。这个内部状态是网络的记忆，用来存储之前看到的信息。

RNN中有一个循环连接，它允许信息在不同时间步之间传递。这个循环连接就像书中的页码，你可以从前一页跳到下一页。这允许RNN处理任意长度的序列数据。

一个案例

为了更好地理解RNN，咱们考虑用一个时间序列数据的简单问题。

使用Python和TensorFlow来构建一个RNN模型，并将其应用于天气预测。

复制代码

import tensorflow as tf
import numpy as np
import matplotlib.pyplot as plt

# 创建示例时间序列数据
time_steps = np.linspace(0, 100, num=100)
sin_wave = np.sin(time_steps)

# 准备数据
X, y = [], []
for i in range(len(sin_wave) - 10):
    X.append(sin_wave[i:i+10])
    y.append(sin_wave[i+10])

X = np.array(X)
y = np.array(y)

# 构建RNN模型
model = tf.keras.Sequential([
    tf.keras.layers.SimpleRNN(10, input_shape=(10, 1)),
    tf.keras.layers.Dense(1)
])

# 编译模型
model.compile(optimizer='adam', loss='mean_squared_error')

# 训练模型
model.fit(X, y, epochs=100, batch_size=16)

# 预测结果
predicted = model.predict(X)

# 可视化结果
plt.plot(time_steps[10:], y, label="accuracy_data")
plt.plot(time_steps[10:], predicted, label="predict_data")
plt.legend()
plt.show()

模型在经过训练后能够较好地拟合实际数据，从而进行预测。