最高效方式是用广播机制一行实现:a_norm = (a - a.mean(axis=0)) / a.std(axis=0, ddof=0);需处理std=0的列,设其标准差为1避免除零;结果等价于sklearn StandardScaler但更快更轻量。
用 numpy 对二维数组每列独立做 Z-score 归一化(即 (x - mean) / std),最高效的方式是利用广播机制,**避免显式循环**,一行代码即可完成。
假设 a 是形状为 (m, n) 的二维数组(m 行、n 列),对每列减去该列均值、再除以该列标准差:
a_norm = (a - a.mean(axis=0)) / a.std(axis=0, ddof=0)
说明:
a.mean(axis=0) 返回长度为 n 的一维数组,含每列均值;a.std(axis=0, ddo
f=0) 同理返回每列标准差(ddof=0 表示总体标准差,与 sklearn 默认一致;若需样本标准差,设 ddof=1);若某列所有值相同(标准差为 0),直接除会得 inf 或 nan。稳妥做法:
stds = a.std(axis=0, ddof=0) stds[stds == 0] = 1 # 防止除零,此时归一化后该列为全 0(因均值已减) a_norm = (a - a.mean(axis=0)) / stds
如果你熟悉 sklearn.preprocessing.StandardScaler,它的默认行为就是列归一化(with_mean=True, with_std=True)。纯 numpy 实现无对象开销,适合大批量或嵌入式计算:
fit/transform 分步;快速检查归一化结果是否符合预期:
print("每列均值 ≈ 0:", np.allclose(a_norm.mean(axis=0), 0, atol=1e-10))
print("每列标准差 ≈ 1:", np.allclose(a_norm.std(axis=0, ddof=0), 1, atol=1e-10))