用Python构建一个简单的神经网络

准备工作

首先我们需要使用到vscode

终端

窗口下输入安装:pip3 install tensorflow pandas numpy keras


代码编写

导入库

python 复制代码
import tensorflow as tf
from tensorflow.keras.models import Sequential  
from tensorflow.keras.layers import Dense
import pandas as pd
import numpy as np
相关知识:
Sequential 模型

是 Keras 提供的一种简单的模型类型,它允许我们按顺序(从输入到输出)堆叠不同的神经网络层。它的主要作用包括:

  1. 简单易用:通过简单的顺序结构定义神经网络,适用于大多数标准的前馈神经网络。
  2. 堆叠层次 :允许按顺序添加各种类型的神经网络层,例如全连接层 (Dense)、卷积层、循环层等,构建起整个神经网络模型。
  3. 快速搭建 :对于简单的神经网络结构,使用 Sequential 模型可以更快速地创建和调试模型,适合初学者和快速原型开发。
Dense

是神经网络中最基本的层之一,也称为全连接层或密集连接层。它的作用包括:

  1. 特征学习:每个神经元与上一层的所有神经元都连接,每个连接都有一个权重,通过学习这些权重可以进行特征的自动提取和学习。
  2. 非线性变换:通过激活函数(如ReLU、sigmoid等),引入非线性变换,使得神经网络能够学习复杂的数据模式和特征。
  3. 输出预测 :在输出层使用 Dense 层时,神经网络可以通过学习权重和偏置来生成输出预测,如回归中的数值预测、分类中的概率分布等。

总的来说,Sequential模型是一种容器,用于按顺序堆叠神经网络层次,而Dense层是其中一种基本的全连接神经网络层类型,用于实现特征学习和非线性变换。


数据准备

定义了一个包含房间数量、浴室数量、房屋面积、地理位置和房价的数据集,并将其转换为DataFrame格式。

python 复制代码
data = {
    'bedrooms' : [3,4,2,5],
    'bathrooms' : [2,3,1,4],
    'sqft' : [1500,2000,800,2500],
    'location' : [1,2,1,2], # 1:市区,2:郊区
    'price' : [300000,450000,200000,500000]
}
df = pd.DataFrame(data)# 将数据转换为DataFrame格式

# 特征变量:房间数量、浴室数量、房屋面积、地理位置
x = df[['bedrooms','bathrooms','sqft','location']]

y = df[['price']]# 目标变量:房价

解释:将数据转换为DataFrame格式(使用 pd.DataFrame(data))使得能够方便地选择特征和标签,并且能够利用pandas提供的数据处理和分析功能来准备和探索数据。


模型定义

使用 Sequential() 创建一个顺序模型。

python 复制代码
model = Sequential()  # 创建Sequential模型,用于按顺序堆叠神经网络层次

添加了一个具有64个神经元和ReLU激活函数的输入层,接受四个特征作为输入。

python 复制代码
model.add(Dense(units=64, activation='relu', input_shape=(4,)))

添加了一个具有32个神经元和ReLU激活函数的隐藏层。

python 复制代码
model.add(Dense(units=32, activation='relu'))

添加了一个输出层,用于输出单个数值(房价预测)。

python 复制代码
model.add(Dense(units=1))

模型编译和训练

使用 compile() 方法编译模型,指定优化器为Adam,损失函数为均方误差(用于回归问题)。

python 复制代码
model.compile(optimizer='adam', loss='mean_squared_error')
为什么要编译模型?

编译模型的过程实际上是在定义模型的训练过程中所需的一些关键设置。当你调用 model.compile() 时,你需要指定以下几个参数:

  1. 优化器(Optimizer):用于控制模型如何进行参数更新,以最小化损失函数。优化器决定了模型在训练过程中如何调整权重和偏置。常见的优化器包括随机梯度下降(SGD)、Adam、RMSprop等。
  2. 损失函数(Loss function):用于衡量模型预测结果与真实标签之间的差异。损失函数的选择取决于你的问题类型,例如均方误差(MSE)适用于回归问题,交叉熵适用于分类问题。
  3. 评估指标(Metrics):用于监控训练和测试过程中模型性能的指标,如准确率、均方误差等。

编译模型的目的是将这些配置参数与模型结合起来,为训练过程提供指导。这样,当你调用 model.fit() 方法进行训练时,模型就知道如何计算损失、如何优化权重,并在训练过程中输出评估指标。

为什么使用Adam优化器和均方误差损失函数?

Adam优化器:Adam(Adaptive Moment Estimation)优化器结合了动量方法和自适应学习率方法,被广泛认为在实践中表现良好。它能够自适应地调整每个参数的学习率,通常能够更快地收敛到全局最优点。相比于传统的随机梯度下降(SGD),Adam通常能够更有效地处理大型数据集和高维空间。

均方误差损失函数(Mean Squared Error,MSE):对于回归问题,MSE 是一个常用的损失函数。它计算预测值与真实值之间的平方差的平均值。MSE 在数学上可微分且凸,这使得优化过程更加稳定和可行。通过最小化MSE,模型可以更好地学习到训练数据中的模式,从而产生更精确的预测。

综上所述,编译模型是为了设置模型训练所需的参数,包括优化器和损失函数。选择Adam优化器和均方误差损失函数通常是因为它们在实践中表现良好,并且能够有效地推动模型学习和收敛到合适的解决方案。

使用 fit() 方法训练模型,传入特征 x 和目标 y,进行100个epoch的训练,每次训练一个样本(批量大小为1)。

python 复制代码
model.fit(x, y, epochs=100, batch_size=1)
Epoch

是指整个训练数据集被送入神经网络中,并完成一次正向传播和反向传播(即参数更新)的过程。换句话说,一个epoch表示神经网络已经看过整个训练数据集一次。

为什么要训练100个epoch?

训练100个epoch的意义在于确保模型有足够的时间从数据中学习到足够的特征和模式。具体到训练的次数,通常有以下几个考虑因素:

  1. 收敛到最优解:在开始阶段,模型可能表现得比较糟糕,但随着训练的进行,模型会逐渐优化参数,损失函数会逐渐减小,性能会逐渐提升。训练多个epoch有助于模型更好地收敛到最优解。
  2. 防止过拟合:通过多次epoch的训练,可以观察到模型在训练集和验证集上的性能变化。如果模型在训练集上表现优秀而在验证集上表现糟糕,可能是过拟合的迹象,此时可以通过早停(early stopping)等技术来避免。
  3. 处理大数据集:在处理大数据集时,通常需要更多的epoch来确保模型充分学习到数据的特征和模式。
为什么批量大小设置为1?
  1. 批量大小是指在每次参数更新时所使用的样本数。批量大小为1意味着每次只用一个样本来更新参数。选择批量大小的主要考虑因素包括:
  2. 内存限制:大批量大小可能会导致内存不足,特别是在处理大数据集时。
  3. 收敛速度:较小的批量大小可以更频繁地更新参数,可能会加快模型的收敛速度。
  4. 稳定性:较大的批量大小可能会导致参数更新方向不稳定,而较小的批量大小通常能够提供更加稳定的梯度估计。

选择批量大小为1可能是为了更细粒度地调整参数,尤其是在训练数据集较小或者希望更频繁地更新模型时。然而,较小的批量大小也可能会导致训练过程更加嘈杂和不稳定,需要通过合适的学习率和优化器来调整。

综上所述,epoch表示模型看过整个数据集的次数,训练100个epoch通常是为了确保模型充分学习数据的特征和模式。而批量大小为1可能是出于对模型训练过程更细致控制的需要。


预测

准备一个新的样本输入 sample_input,包含房间数量、浴室数量、房屋面积和地理位置。

python 复制代码
sample_input = np.array([[6,3,10000,1]])

使用 predict() 方法对样本进行价格预测,并输出预测结果。

python 复制代码
predicted_price = model.predict(sample_input)

print(f"预测的价格为: ${predicted_price[0][0]:,.2f}")

完整代码

python 复制代码
import tensorflow as tf
from tensorflow.keras.models import Sequential  
from tensorflow.keras.layers import Dense
import pandas as pd
import numpy as np

# 定义数据,包括房间数量、浴室数量、房屋面积、地理位置和房价
data = {
    'bedrooms' : [3,4,2,5],
    'bathrooms' : [2,3,1,4],
    'sqft' : [1500,2000,800,2500],
    'location' : [1,2,1,2], # 1:市区,2:郊区
    'price' : [300000,450000,200000,500000]
}

df = pd.DataFrame(data)# 将数据转换为DataFrame格式

x = df[['bedrooms','bathrooms','sqft','location']]# 特征变量:房间数量、浴室数量、房屋面积、地理位置
y = df[['price']]# 目标变量:房价

model = Sequential()  # 创建Sequential模型,用于按顺序堆叠神经网络层次

# 输入层
# 添加一个具有64个神经元和ReLU激活函数的全连接层,输入形状为(4,),对应四个特征
model.add(Dense(units=64, activation='relu', input_shape=(4,)))

# 隐藏层
# 添加一个具有32个神经元和ReLU激活函数的隐藏层
model.add(Dense(units=32, activation='relu'))

# 输出层
# 添加一个输出层,用于输出单个数值(房价预测)
model.add(Dense(units=1))

# 编译模型,使用Adam优化器和均方误差损失函数
model.compile(optimizer='adam', loss='mean_squared_error')

# 训练模型,使用输入x和目标y,训练100个epoch,批量大小为1
model.fit(x, y, epochs=100, batch_size=1)

# 准备一个样本输入,包含房间数量、浴室数量、房屋面积、地理位置
sample_input = np.array([[6,3,10000,1]])

# 使用训练好的模型进行价格预测
predicted_price = model.predict(sample_input)

print(f"预测的价格为: ${predicted_price[0][0]:,.2f}")  # 打印预测价格

最后

这篇文章只是给像我一样的初学者提供一点思路以及了解一些库的使用,具体改进和拓展可以通过爬虫技术(如BeautifulSoup库)从网站上获取房子的相关信息,例如房间数量、客厅数量、厕所数量、房屋面积、地理位置和价格。将爬取到的数据保存为Excel表格或者直接用pandas加载为DataFrame。我们也可以对数据进行预处理,对网络进行模型优化,将训练好的模型部署为Web服务或API,以便实时接收用户输入并返回预测结果,也添加用户界面(如Flask或Django)以便用户友好地输入房屋特征并获取预测价格。

相关推荐
逊嘘6 分钟前
【Java语言】抽象类与接口
java·开发语言·jvm
Half-up9 分钟前
C语言心型代码解析
c语言·开发语言
985小水博一枚呀29 分钟前
【深度学习滑坡制图|论文解读3】基于融合CNN-Transformer网络和深度迁移学习的遥感影像滑坡制图方法
人工智能·深度学习·神经网络·cnn·transformer
龙哥说跨境30 分钟前
如何利用指纹浏览器爬虫绕过Cloudflare的防护?
服务器·网络·python·网络爬虫
Source.Liu31 分钟前
【用Rust写CAD】第二章 第四节 函数
开发语言·rust
monkey_meng31 分钟前
【Rust中的迭代器】
开发语言·后端·rust
余衫马34 分钟前
Rust-Trait 特征编程
开发语言·后端·rust
985小水博一枚呀34 分钟前
【深度学习滑坡制图|论文解读2】基于融合CNN-Transformer网络和深度迁移学习的遥感影像滑坡制图方法
人工智能·深度学习·神经网络·cnn·transformer·迁移学习
monkey_meng37 分钟前
【Rust中多线程同步机制】
开发语言·redis·后端·rust
Jacob程序员39 分钟前
java导出word文件(手绘)
java·开发语言·word