【贝叶斯回归】【第 1 部分】--pyro库应用

Bayesian Regression - Introduction (Part 1) --- Pyro Tutorials 1.8.6 documentation

一、说明

我们很熟悉线性回归的问题，然而，一些问题看似不似线性问题，但是，用贝叶斯回归却可以解决。本文使用土地平整度和国家GDP的关系数据集进行回归分析，发现线性回归无法解决的问题，从贝叶斯回归给出答案。

二、贝叶斯回归简介

回归是机器学习中最常见和基本的监督学习任务之一。假设我们有一个数据集形式的

线性回归的目标是将函数拟合到以下形式的数据：

在这里w和b是可学习的参数并且代表观测噪声。具体来说w是一个权重矩阵，并且b是一个偏置向量。

在本教程中，我们将首先在 PyTorch 中实现线性回归并学习参数的点估计w和b。然后我们将了解如何使用 Pyro 实现贝叶斯回归，将不确定性纳入我们的估计中。此外，我们将学习如何使用 Pyro 的实用函数进行预测并使用TorchScript.

三、教程大纲

四、基础设置

4.1 导入模块

让我们首先导入我们需要的模块。

复制代码

[1]:

复制代码

%reset -s -f

复制代码

[2]:

复制代码

import os
from functools import partial
import torch
import numpy as np
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt

import pyro
import pyro.distributions as dist

# for CI testing
smoke_test = ('CI' in os.environ)
assert pyro.__version__.startswith('1.8.6')
pyro.set_rng_seed(1)


# Set matplotlib settings
%matplotlib inline
plt.style.use('default')

4.2 导入数据集

以下示例改编自[1]。我们想探讨一个国家的地形异质性（通过地形崎岖指数（数据集中的变量崎岖度）衡量）与其人均 GDP 之间的关系。特别是，[2] 中的作者指出，地形崎岖或恶劣的地理位置与非洲以外地区较差的经济表现有关，但崎岖的地形对非洲国家的收入产生了相反的影响。让我们看一下数据并研究这种关系。我们将重点关注数据集中的三个特征：

rugged：量化地形坚固性指数
cont_africa：指定国家是否在非洲
rgdppc_2000：2000年实际人均GDP

响应变量 GDP 高度偏态，因此我们将对它进行对数变换。

复制代码

[3]:

复制代码

DATA_URL = "https://d2hg8soec8ck9v.cloudfront.net/datasets/rugged_data.csv"
data = pd.read_csv(DATA_URL, encoding="ISO-8859-1")
df = data[["cont_africa", "rugged", "rgdppc_2000"]]
df = df[np.isfinite(df.rgdppc_2000)]
df["rgdppc_2000"] = np.log(df["rgdppc_2000"])