返回博客列表
工具效率··11 分钟阅读

回归、插值与优化学习卡片

梳理回归、插值和优化的主线,理解线性回归、正则化、Sinc插值、拉格朗日插值、梯度下降和牛顿法。

主线

这份材料容易变成概念堆叠。更清晰的方式,是把它分成三条线:

回归:用一个函数去拟合数据。
插值:让函数严格穿过已知采样点。
优化:用算法找到目标函数最小值。

一句话总览

回归:从带噪声的数据中学习规律。
插值:从已知采样点中恢复中间值。
优化:寻找让目标函数最小的参数。

这三类方法经常一起出现:

先建立模型 -> 定义误差函数 -> 用优化算法求最优参数

例如线性回归就是:

  • 模型:y=wx+by = wx + b
  • 误差:预测值和真实值的差
  • 优化:最小二乘、梯度下降或牛顿法

回归分析

线性回归

一句话功能:

用一条直线拟合数据关系。

模型是:

y=wx+by = wx + b

其中:

符号含义
xx输入
yy输出
ww斜率
bb截距

目标是找到最合适的 wwbb,让预测值尽量接近真实值。

最小二乘法

线性回归常用最小二乘法。

目标函数:

mini(yiy^i)2\min \sum_i (y_i - \hat{y}_i)^2

意思是,让所有样本的预测误差平方和最小。

为什么要平方?

  1. 避免正负误差相互抵消
  2. 放大大误差
  3. 数学上容易求导和优化

多项式曲线拟合

线性回归是直线,多项式回归是曲线。

例如二次多项式:

y=a0+a1x+a2x2y = a_0 + a_1x + a_2x^2

三次多项式:

y=a0+a1x+a2x2+a3x3y = a_0 + a_1x + a_2x^2 + a_3x^3

本质是用更复杂的函数拟合更复杂的数据趋势。

但复杂度越高,越容易过拟合。

过拟合

一句话功能:

模型把噪声也学进去了。

表现是:

  • 训练集效果很好
  • 测试集效果很差

直觉例子:你用一条很弯的曲线,把每个训练点都穿过去。看起来训练误差为 0,但新数据来了就预测很差。

这就是过拟合。

正则化

一句话功能:

正则化就是给模型复杂度加惩罚,防止参数过大。

原始目标是最小化误差。加入正则化后,目标变成:

最小化误差 + 惩罚项

常见形式:

Loss=Error+λ×Penalty\mathrm{Loss} = \mathrm{Error} + \lambda \times \mathrm{Penalty}

其中 λ\lambda 控制惩罚强度。

L2 正则化可以写成:

Loss=i(yiy^i)2+λjwj2\mathrm{Loss} = \sum_i (y_i - \hat{y}_i)^2 + \lambda \sum_j w_j^2

含义是,如果参数 wjw_j 太大,就会受到惩罚。

直觉是:模型别太激进,参数别乱飞。

基函数

基函数是把输入 xx 映射成一组新的特征。

例如原始输入是 xx,可以构造:

1, x, x2, x31,\ x,\ x^2,\ x^3

于是模型变成:

y=a01+a1x+a2x2+a3x3y = a_0 \cdot 1 + a_1 \cdot x + a_2 \cdot x^2 + a_3 \cdot x^3

这些 1,x,x2,x31, x, x^2, x^3 就是基函数。

基函数的作用是把简单输入变成更丰富的表达能力。

常见基函数包括:

  • 多项式基函数
  • 高斯基函数
  • 傅里叶基函数
  • Sinc 基函数

插值算法

回归和插值的区别

这是必须先分清的问题。

对比项回归插值
是否必须穿过样本点不一定必须
是否允许噪声允许通常假设点是准确的
目标学趋势补中间点
典型方法线性回归、多项式拟合Sinc 插值、拉格朗日插值

一句话:

回归追求整体趋势;
插值追求穿过已知点。

Sinc插值

一句话功能:

在满足奈奎斯特采样条件时,用离散采样点重建连续信号。

核心前提:

采样频率 > 2 × 信号最高频率

也就是奈奎斯特采样定理。

如果连续信号是带限信号,采样周期为 TT,采样值为 x[n]x[n],那么可以用:

x(t)=n=+x[n]sinc(tnTT)x(t) = \sum_{n=-\infty}^{+\infty} x[n] \cdot \mathrm{sinc}\left(\frac{t - nT}{T}\right)

来重建原始连续信号。

其中:

sinc(x)=sin(πx)πx\mathrm{sinc}(x) = \frac{\sin(\pi x)}{\pi x}

直觉理解是:每一个采样点都会生成一个 sinc 波形,最终连续信号是所有采样点对应 sinc 波形的叠加。

通信里的意义是,Sinc 插值和采样重建、带限信号恢复、数字上采样都有关系。

你可以这样理解:

采样点不是孤立的点;
每个点都通过 sinc 函数影响周围连续时间。

拉格朗日插值

一句话功能:

给定若干个点,构造一个多项式,让它严格穿过这些点。

假设有 n+1n+1 个点:

(x0,y0),(x1,y1),,(xn,yn)(x_0, y_0), (x_1, y_1), \ldots, (x_n, y_n)

拉格朗日插值构造:

P(x)=i=0nyiLi(x)P(x) = \sum_{i=0}^{n} y_i \cdot L_i(x)

其中 Li(x)L_i(x) 是第 ii 个拉格朗日基函数。

核心思想是每个基函数 Li(x)L_i(x) 满足:

Li(xi)=1,Li(xj)=0, jiL_i(x_i) = 1,\quad L_i(x_j) = 0,\ j \ne i

所以在 x=xix = x_i 时:

P(xi)=yiP(x_i) = y_i

也就是说,多项式一定穿过所有采样点。

拉格朗日插值数字例子

给三个点:

(0, 1)
(1, 3)
(2, 2)

你想构造一条二次曲线,穿过这三个点。

拉格朗日插值会构造:

P(x)=y0L0(x)+y1L1(x)+y2L2(x)P(x) = y_0L_0(x) + y_1L_1(x) + y_2L_2(x)

最后得到一个二次多项式。

不需要一开始就背公式,先记住本质:

几个点,就构造一个能穿过所有点的多项式。

但注意,点太多时,多项式阶数很高,容易震荡,这叫 Runge 现象。

凸优化理论

优化在解决什么问题

优化就是找:

让目标函数最小的参数。

比如:

minf(x)\min f(x)

在线性回归里,f(x)f(x) 可以是预测误差平方和。

在无线算法里,也经常见到:

  • 最大吞吐
  • 最小功率
  • 最小误差
  • 最大容量
  • 最小干扰

什么是凸优化

简单理解:

如果目标函数像一个碗,只有一个全局最低点,就是凸优化。

凸优化的好处是,局部最优就是全局最优。

非凸优化的问题是,可能有很多局部最优,算法容易卡住。

梯度下降法

一句话功能

沿着函数下降最快的方向,一步步走向最小值。

核心思想是:

当前位置的负梯度方向,就是函数下降最快的方向。

更新公式:

xk+1=xkαf(xk)x_{k+1} = x_k - \alpha \nabla f(x_k)

其中:

符号含义
xkx_k当前参数
α\alpha学习率 / 步长
f(xk)\nabla f(x_k)当前点梯度
f(xk)-\nabla f(x_k)最速下降方向

数字例子

假设目标函数:

f(x)=x2f(x) = x^2

它的梯度:

f(x)=2xf'(x) = 2x

如果初始:

x0 = 10
α = 0.1

第一次更新:

x1=100.1×20=8x_1 = 10 - 0.1 \times 20 = 8

第二次:

x2=80.1×16=6.4x_2 = 8 - 0.1 \times 16 = 6.4

第三次:

x3=6.40.1×12.8=5.12x_3 = 6.4 - 0.1 \times 12.8 = 5.12

它会逐步靠近最小点 x=0x=0

梯度下降的关键问题:步长

步长太小,收敛很慢。

步长太大,可能震荡,甚至发散。

所以梯度下降最难的是选步长。

有一种说法是“梯度下降不管初值如何选择,一定保证收敛”。这个说法太绝对。

更准确的表述是:

在目标函数满足一定条件,并且步长选择合理时,梯度下降才有收敛保证。

不要把工程条件省略成绝对结论。

牛顿法

一句话功能

不仅看梯度,还看曲率,用二阶信息更快逼近最小点。

梯度下降只问:

往哪个方向下降?

牛顿法还问:

这个方向的弯曲程度是多少?
我一步应该走多远?

一维牛顿法公式

对一维函数:

xk+1=xkf(xk)f(xk)x_{k+1} = x_k - \frac{f'(x_k)}{f''(x_k)}

其中:

符号含义
f(x)f'(x)一阶导数,表示斜率
f(x)f''(x)二阶导数,表示曲率

多维牛顿法公式

xk+1=xkH1f(xk)x_{k+1} = x_k - H^{-1}\nabla f(x_k)

其中:

符号含义
f(x)\nabla f(x)梯度
HHHessian 矩阵,也就是二阶导数矩阵
H1H^{-1}Hessian 的逆

数字例子

目标函数:

f(x)=x2f(x) = x^2

一阶导:

f(x)=2xf'(x) = 2x

二阶导:

f(x)=2f''(x) = 2

牛顿法更新:

xk+1=xkf(xk)f(xk)=xk2xk2=0x_{k+1} = x_k - \frac{f'(x_k)}{f''(x_k)} = x_k - \frac{2x_k}{2} = 0

这说明,对标准二次函数,牛顿法一步到最优点。

这就是牛顿法快的原因。

牛顿法的问题

牛顿法不是万能的。它的问题包括:

  • 需要二阶导数
  • 需要求 Hessian 逆
  • 计算量大
  • 初始点不好时可能不收敛
  • Hessian 不是正定时,方向可能不是下降方向

所以实际工程里常用:

  • 阻尼牛顿法
  • 拟牛顿法
  • BFGS
  • L-BFGS

梯度下降 vs 牛顿法

对比项梯度下降法牛顿法
使用信息一阶梯度一阶梯度 + 二阶曲率
方向负梯度方向牛顿方向
收敛速度通常较慢接近最优点时很快
每步计算量
是否需要 Hessian不需要需要
对初值敏感度相对低相对高
是否每步下降取决于步长不一定
适合场景大规模问题中小规模、高精度问题

严谨结论:

梯度下降:便宜但慢。
牛顿法:贵但快。

四个重点方法怎么串起来

这章的主线应该这样记:

  • 回归:我要拟合一个函数
  • 插值:我要从采样点重建函数
  • 正则化:我要防止模型过拟合
  • 优化:我要找到最优参数

四个具体算法:

  • Sinc 插值:适合带限信号重建
  • 拉格朗日插值:适合有限点多项式插值
  • 梯度下降:用一阶导数迭代找最小值
  • 牛顿法:用二阶导数更快找最小值

在无线通信里的理解

这些方法不是纯数学,和工程工作也有关。

回归

可用于:

  • KPI 拟合
  • L2S 映射
  • SINR-BLER 曲线拟合
  • 仿真误差校准
  • 数字孪生参数拟合

插值

可用于:

  • 采样信号重建
  • 信道估计插值
  • 频域 / 时域插值
  • CQI 曲线补点
  • 仿真表格查表补点

优化

可用于:

  • 功率分配
  • 调度权重优化
  • 波束选择
  • 参数寻优
  • MCS 门限优化
  • 切换门限优化

一页总结表

模块核心问题典型方法关键词
回归数据有噪声,拟合趋势线性回归、多项式拟合趋势、误差最小
正则化模型太复杂,泛化差L1、L2惩罚大参数
插值已知点之间补值Sinc、拉格朗日穿过采样点
优化找最优参数梯度下降、牛顿法最小化目标函数

现在最该掌握的判断

以后看到一个问题,先问:

这是回归、插值,还是优化?

判断标准:

  • 如果数据有噪声,想学趋势:回归
  • 如果采样点可信,想补中间值:插值
  • 如果已经有目标函数,想找最优参数:优化

自测问题

Q1:回归和插值最大区别是什么?

回归不一定穿过所有样本点,插值必须穿过已知点。

Q2:为什么多项式阶数太高容易过拟合?

因为模型表达能力太强,会把噪声也拟合进去。

Q3:正则化为什么能缓解过拟合?

因为它惩罚过大的参数,让模型不要过度复杂。

Q4:Sinc插值的前提是什么?

信号是带限的,并且采样频率大于两倍最高频率。

Q5:梯度下降为什么沿负梯度方向?

因为梯度方向是函数上升最快方向,负梯度方向就是下降最快方向。

Q6:牛顿法为什么快?

因为它利用了二阶曲率信息,尤其在接近最优点时收敛速度很快。

一句话总结

回归解决“从数据中学规律”;
插值解决“从采样点补连续值”;
优化解决“怎么找到最优参数”。

Sinc 插值依赖带限采样定理;拉格朗日插值构造穿点多项式;梯度下降靠一阶导数慢慢走;牛顿法靠二阶曲率快速逼近。

Connect

持续跟踪通信仿真、AI 辅助研发与技术管理

如果你也关注系统仿真、AI for RAN、研发效能和团队管理,欢迎通过邮件交流具体问题和实践经验。

也欢迎围绕仿真平台、AI Coding 落地、技术团队管理等主题交流具体问题和实践经验。

Next Reading

优先推荐标签或分类相关的文章;没有足够相关内容时,补充最新文章。

向福星

无线通信算法工程师,关注系统仿真、AI for RAN、研发效能和技术团队管理。

了解作者