经验分享python标准化函数。

IT工程 • 2024年7月24日 09:29 • 网站搭建 • 阅读 2

在数据分析和机器学习领域，标准化（Normalization）是一种常用的数据预处理方法，它的主要目的是将不同量级或单位的数据转换到同一尺度，通常是0到1之间或者具有0均值和1的标准差，这样做的好处是可以避免由于数据的绝对大小影响模型的性能，特别是在使用基于距离的算法（如K-NN）或梯度下降优化算法时，Python中有多种实现数据标准化的方法，接下来我们将介绍几种常见的标准化函数。

最小-最大标准化

最小-最大标准化（Min-Max Normalization）是最简单的一种方法，其公式为：

[ X_{text{norm}} = frac{X X_{text{min}}}{X_{text{max}} X_{text{min}}} ]

( X )是原始数据，( X_{text{min}} )和( X_{text{max}} )分别是数据的最小值和最大值，这种标准化方法将数据映射到0到1之间。

在Python中，可以使用sklearn.preprocessing模块中的MinMaxScaler类来实现这一功能：

from sklearn.preprocessing import MinMaxScaler
import numpy as np
data = np.array([[1, 2], [3, 4], [5, 6]])
scaler = MinMaxScaler()
normalized_data = scaler.fit_transform(data)
print(normalized_data)

Z-score标准化

Z-score标准化（Standard Scaler）是基于原始数据的均值（mean）和标准差（standard deviation）进行标准化的一种方法，其公式为：

[ X_{text{norm}} = frac{X mu}{sigma} ]

( mu )是样本均值，( sigma )是样本标准差，这种方法会使得标准化后的数据具有0均值和1的标准差。

同样地，我们可以使用sklearn.preprocessing模块中的StandardScaler类来实现：

from sklearn.preprocessing import StandardScaler
data = np.array([[1, 2], [3, 4], [5, 6]])
scaler = StandardScaler()
normalized_data = scaler.fit_transform(data)
print(normalized_data)

小数缩放标准化

小数缩放（Decimal Scaling）通过将每个特征除以其范围（最大值和最小值之差）来缩放数据，这种方法适用于处理具有固定范围的特征，例如温度数据。

def decimal_scaling(data):
    return (data np.min(data)) / (np.max(data) np.min(data))
data = np.array([10, 20, 30, 40, 50])
normalized_data = decimal_scaling(data)
print(normalized_data)

归一化与正则化的区别

在讨论标准化时，经常会提到归一化（Normalization）和正则化（Regularization）两个概念，虽然这两个词在日常使用中可能会混淆，但它们在机器学习中有着明确的区别：

归一化：是指将数据转换为统一的尺度，通常是0到1或者具有0均值和1的标准差，目的是为了数据预处理。

正则化：是指在损失函数中加入一个额外的项（通常是L1范数或L2范数），目的是为了防止模型过拟合。