回归、插值与优化学习卡片 | 向福星的个人博客

主线

这份材料容易变成概念堆叠。更清晰的方式，是把它分成三条线：

回归：用一个函数去拟合数据。
插值：让函数严格穿过已知采样点。
优化：用算法找到目标函数最小值。

一句话总览

回归：从带噪声的数据中学习规律。
插值：从已知采样点中恢复中间值。
优化：寻找让目标函数最小的参数。

这三类方法经常一起出现：

先建立模型 -> 定义误差函数 -> 用优化算法求最优参数

例如线性回归就是：

模型： $y = wx + b$
误差：预测值和真实值的差
优化：最小二乘、梯度下降或牛顿法

回归分析

线性回归

一句话功能：

用一条直线拟合数据关系。

模型是：

y = wx + b

其中：

符号	含义
$x$	输入
$y$	输出
$w$	斜率
$b$	截距

目标是找到最合适的 $w$ 和 $b$ ，让预测值尽量接近真实值。

最小二乘法

线性回归常用最小二乘法。

目标函数：

\min \sum_i (y_i - \hat{y}_i)^2

意思是，让所有样本的预测误差平方和最小。

为什么要平方？

避免正负误差相互抵消
放大大误差
数学上容易求导和优化

多项式曲线拟合

线性回归是直线，多项式回归是曲线。

例如二次多项式：

y = a_0 + a_1x + a_2x^2

三次多项式：

y = a_0 + a_1x + a_2x^2 + a_3x^3

本质是用更复杂的函数拟合更复杂的数据趋势。

但复杂度越高，越容易过拟合。

过拟合

一句话功能：

模型把噪声也学进去了。

表现是：

训练集效果很好
测试集效果很差

直觉例子：你用一条很弯的曲线，把每个训练点都穿过去。看起来训练误差为 0，但新数据来了就预测很差。

这就是过拟合。

正则化

一句话功能：

正则化就是给模型复杂度加惩罚，防止参数过大。

原始目标是最小化误差。加入正则化后，目标变成：

最小化误差 + 惩罚项

常见形式：

\mathrm{Loss} = \mathrm{Error} + \lambda \times \mathrm{Penalty}

其中 $\lambda$ 控制惩罚强度。

L2 正则化可以写成：

\mathrm{Loss} = \sum_i (y_i - \hat{y}_i)^2 + \lambda \sum_j w_j^2

含义是，如果参数 $w_j$ 太大，就会受到惩罚。

直觉是：模型别太激进，参数别乱飞。

基函数

基函数是把输入 $x$ 映射成一组新的特征。

例如原始输入是 $x$ ，可以构造：

1,\ x,\ x^2,\ x^3

于是模型变成：

y = a_0 \cdot 1 + a_1 \cdot x + a_2 \cdot x^2 + a_3 \cdot x^3

这些 $1, x, x^2, x^3$ 就是基函数。

基函数的作用是把简单输入变成更丰富的表达能力。

常见基函数包括：

多项式基函数
高斯基函数
傅里叶基函数
Sinc 基函数

插值算法

回归和插值的区别

这是必须先分清的问题。

对比项	回归	插值
是否必须穿过样本点	不一定	必须
是否允许噪声	允许	通常假设点是准确的
目标	学趋势	补中间点
典型方法	线性回归、多项式拟合	Sinc 插值、拉格朗日插值

一句话：

回归追求整体趋势；
插值追求穿过已知点。

Sinc插值

一句话功能：

在满足奈奎斯特采样条件时，用离散采样点重建连续信号。

核心前提：

采样频率 > 2 × 信号最高频率

也就是奈奎斯特采样定理。

如果连续信号是带限信号，采样周期为 $T$ ，采样值为 $x[n]$ ，那么可以用：

x(t) = \sum_{n=-\infty}^{+\infty} x[n] \cdot \mathrm{sinc}\left(\frac{t - nT}{T}\right)

来重建原始连续信号。

其中：

\mathrm{sinc}(x) = \frac{\sin(\pi x)}{\pi x}

直觉理解是：每一个采样点都会生成一个 sinc 波形，最终连续信号是所有采样点对应 sinc 波形的叠加。

通信里的意义是，Sinc 插值和采样重建、带限信号恢复、数字上采样都有关系。

你可以这样理解：

采样点不是孤立的点；
每个点都通过 sinc 函数影响周围连续时间。

拉格朗日插值

一句话功能：

给定若干个点，构造一个多项式，让它严格穿过这些点。

假设有 $n+1$ 个点：

(x_0, y_0), (x_1, y_1), \ldots, (x_n, y_n)

拉格朗日插值构造：

P(x) = \sum_{i=0}^{n} y_i \cdot L_i(x)

其中 $L_i(x)$ 是第 $i$ 个拉格朗日基函数。

核心思想是每个基函数 $L_i(x)$ 满足：

L_i(x_i) = 1,\quad L_i(x_j) = 0,\ j \ne i

所以在 $x = x_i$ 时：

P(x_i) = y_i

也就是说，多项式一定穿过所有采样点。

拉格朗日插值数字例子

给三个点：

(0, 1)
(1, 3)
(2, 2)

你想构造一条二次曲线，穿过这三个点。

拉格朗日插值会构造：

P(x) = y_0L_0(x) + y_1L_1(x) + y_2L_2(x)

最后得到一个二次多项式。

不需要一开始就背公式，先记住本质：

几个点，就构造一个能穿过所有点的多项式。

但注意，点太多时，多项式阶数很高，容易震荡，这叫 Runge 现象。

凸优化理论

优化在解决什么问题

优化就是找：

让目标函数最小的参数。

比如：

\min f(x)

在线性回归里， $f(x)$ 可以是预测误差平方和。

在无线算法里，也经常见到：

最大吞吐
最小功率
最小误差
最大容量
最小干扰

什么是凸优化

简单理解：

如果目标函数像一个碗，只有一个全局最低点，就是凸优化。

凸优化的好处是，局部最优就是全局最优。

非凸优化的问题是，可能有很多局部最优，算法容易卡住。

梯度下降法

一句话功能

沿着函数下降最快的方向，一步步走向最小值。

核心思想是：

当前位置的负梯度方向，就是函数下降最快的方向。

更新公式：

x_{k+1} = x_k - \alpha \nabla f(x_k)

其中：

符号	含义
$x_k$	当前参数
$\alpha$	学习率 / 步长
$\nabla f(x_k)$	当前点梯度
$-\nabla f(x_k)$	最速下降方向

数字例子

假设目标函数：

f(x) = x^2

它的梯度：

f'(x) = 2x

如果初始：

x0 = 10
α = 0.1

第一次更新：

x_1 = 10 - 0.1 \times 20 = 8

第二次：

x_2 = 8 - 0.1 \times 16 = 6.4

第三次：

x_3 = 6.4 - 0.1 \times 12.8 = 5.12

它会逐步靠近最小点 $x=0$ 。

梯度下降的关键问题：步长

步长太小，收敛很慢。

步长太大，可能震荡，甚至发散。

所以梯度下降最难的是选步长。

有一种说法是“梯度下降不管初值如何选择，一定保证收敛”。这个说法太绝对。

更准确的表述是：

在目标函数满足一定条件，并且步长选择合理时，梯度下降才有收敛保证。

不要把工程条件省略成绝对结论。

牛顿法

一句话功能

不仅看梯度，还看曲率，用二阶信息更快逼近最小点。

梯度下降只问：

往哪个方向下降？

牛顿法还问：

这个方向的弯曲程度是多少？
我一步应该走多远？

一维牛顿法公式

对一维函数：

x_{k+1} = x_k - \frac{f'(x_k)}{f''(x_k)}

其中：

符号	含义
$f'(x)$	一阶导数，表示斜率
$f''(x)$	二阶导数，表示曲率

多维牛顿法公式

x_{k+1} = x_k - H^{-1}\nabla f(x_k)

其中：

符号	含义
$\nabla f(x)$	梯度
$H$	Hessian 矩阵，也就是二阶导数矩阵
$H^{-1}$	Hessian 的逆

数字例子

目标函数：

f(x) = x^2

一阶导：

f'(x) = 2x

二阶导：

f''(x) = 2

牛顿法更新：

x_{k+1} = x_k - \frac{f'(x_k)}{f''(x_k)} = x_k - \frac{2x_k}{2} = 0

这说明，对标准二次函数，牛顿法一步到最优点。

这就是牛顿法快的原因。

牛顿法的问题

牛顿法不是万能的。它的问题包括：

需要二阶导数
需要求 Hessian 逆
计算量大
初始点不好时可能不收敛
Hessian 不是正定时，方向可能不是下降方向

所以实际工程里常用：

阻尼牛顿法
拟牛顿法
BFGS
L-BFGS

梯度下降 vs 牛顿法

对比项	梯度下降法	牛顿法
使用信息	一阶梯度	一阶梯度 + 二阶曲率
方向	负梯度方向	牛顿方向
收敛速度	通常较慢	接近最优点时很快
每步计算量	小	大
是否需要 Hessian	不需要	需要
对初值敏感度	相对低	相对高
是否每步下降	取决于步长	不一定
适合场景	大规模问题	中小规模、高精度问题

严谨结论：

梯度下降：便宜但慢。
牛顿法：贵但快。

四个重点方法怎么串起来

这章的主线应该这样记：

回归：我要拟合一个函数
插值：我要从采样点重建函数
正则化：我要防止模型过拟合
优化：我要找到最优参数

四个具体算法：

Sinc 插值：适合带限信号重建
拉格朗日插值：适合有限点多项式插值
梯度下降：用一阶导数迭代找最小值
牛顿法：用二阶导数更快找最小值

在无线通信里的理解

这些方法不是纯数学，和工程工作也有关。

回归

可用于：

KPI 拟合
L2S 映射
SINR-BLER 曲线拟合
仿真误差校准
数字孪生参数拟合

插值

可用于：

采样信号重建
信道估计插值
频域 / 时域插值
CQI 曲线补点
仿真表格查表补点

优化

可用于：

功率分配
调度权重优化
波束选择
参数寻优
MCS 门限优化
切换门限优化

一页总结表

模块	核心问题	典型方法	关键词
回归	数据有噪声，拟合趋势	线性回归、多项式拟合	趋势、误差最小
正则化	模型太复杂，泛化差	L1、L2	惩罚大参数
插值	已知点之间补值	Sinc、拉格朗日	穿过采样点
优化	找最优参数	梯度下降、牛顿法	最小化目标函数

现在最该掌握的判断

以后看到一个问题，先问：

这是回归、插值，还是优化？

判断标准：

如果数据有噪声，想学趋势：回归
如果采样点可信，想补中间值：插值
如果已经有目标函数，想找最优参数：优化

自测问题

Q1：回归和插值最大区别是什么？

回归不一定穿过所有样本点，插值必须穿过已知点。

Q2：为什么多项式阶数太高容易过拟合？

因为模型表达能力太强，会把噪声也拟合进去。

Q3：正则化为什么能缓解过拟合？

因为它惩罚过大的参数，让模型不要过度复杂。

Q4：Sinc插值的前提是什么？

信号是带限的，并且采样频率大于两倍最高频率。

Q5：梯度下降为什么沿负梯度方向？

因为梯度方向是函数上升最快方向，负梯度方向就是下降最快方向。

Q6：牛顿法为什么快？

因为它利用了二阶曲率信息，尤其在接近最优点时收敛速度很快。

一句话总结

回归解决“从数据中学规律”；
插值解决“从采样点补连续值”；
优化解决“怎么找到最优参数”。

Sinc 插值依赖带限采样定理；拉格朗日插值构造穿点多项式；梯度下降靠一阶导数慢慢走；牛顿法靠二阶曲率快速逼近。

持续跟踪通信仿真、AI 辅助研发与技术管理

推荐继续阅读

矩阵分解与线性方程组求解学习卡片

系统仿真，为什么是 AI For Science 在无线通信里的关键入口？

信道资源分配学习卡片：时频空功率四域怎么协同