# 数据准备 要生成数据集,我们使用`sklearn`库的`datasets`模块中的`make_regression`函数: ```py from sklearn import datasets as skds X, y = skds.make_regression(n_samples=200, n_features=1, n_informative=1, n_targets=1, noise = 20.0) ``` 这将生成一个回归数据集,其中包含一个特征的 200 个样本值和每个特征的一个目标,并添加了一些噪声。因为我们只生成一个目标,所以该函数使用一维 NumPy 数组生成`y`;因此,我们重塑`y`有两个维度: ```py if (y.ndim == 1): y = y.reshape(len(y),1) ``` 我们使用以下代码绘制生成的数据集以查看数据: ```py import matplotlib.pyplot as plt plt.figure(figsize=(14,8)) plt.plot(X,y,'b.') plt.title('Original Dataset') plt.show() ``` 我们得到以下绘图。由于生成的数据是随机的,您可能会得到不同的绘图: ![](img/9dd24ca6-c0a6-427a-bc83-e12c3480d5fa.png) 现在让我们将数据分为训练集和测试集: ```py X_train, X_test, y_train, y_test = skms.train_test_split(X, y, test_size=.4, random_state=123) ```