主线
这份材料容易变成概念堆叠。更清晰的方式,是把它分成三条线:
回归:用一个函数去拟合数据。
插值:让函数严格穿过已知采样点。
优化:用算法找到目标函数最小值。一句话总览
回归:从带噪声的数据中学习规律。
插值:从已知采样点中恢复中间值。
优化:寻找让目标函数最小的参数。这三类方法经常一起出现:
先建立模型 -> 定义误差函数 -> 用优化算法求最优参数例如线性回归就是:
- 模型:
- 误差:预测值和真实值的差
- 优化:最小二乘、梯度下降或牛顿法
回归分析
线性回归
一句话功能:
用一条直线拟合数据关系。模型是:
其中:
| 符号 | 含义 |
|---|---|
| 输入 | |
| 输出 | |
| 斜率 | |
| 截距 |
目标是找到最合适的 和 ,让预测值尽量接近真实值。
最小二乘法
线性回归常用最小二乘法。
目标函数:
意思是,让所有样本的预测误差平方和最小。
为什么要平方?
- 避免正负误差相互抵消
- 放大大误差
- 数学上容易求导和优化
多项式曲线拟合
线性回归是直线,多项式回归是曲线。
例如二次多项式:
三次多项式:
本质是用更复杂的函数拟合更复杂的数据趋势。
但复杂度越高,越容易过拟合。
过拟合
一句话功能:
模型把噪声也学进去了。表现是:
- 训练集效果很好
- 测试集效果很差
直觉例子:你用一条很弯的曲线,把每个训练点都穿过去。看起来训练误差为 0,但新数据来了就预测很差。
这就是过拟合。
正则化
一句话功能:
正则化就是给模型复杂度加惩罚,防止参数过大。原始目标是最小化误差。加入正则化后,目标变成:
最小化误差 + 惩罚项常见形式:
其中 控制惩罚强度。
L2 正则化可以写成:
含义是,如果参数 太大,就会受到惩罚。
直觉是:模型别太激进,参数别乱飞。
基函数
基函数是把输入 映射成一组新的特征。
例如原始输入是 ,可以构造:
于是模型变成:
这些 就是基函数。
基函数的作用是把简单输入变成更丰富的表达能力。
常见基函数包括:
- 多项式基函数
- 高斯基函数
- 傅里叶基函数
- Sinc 基函数
插值算法
回归和插值的区别
这是必须先分清的问题。
| 对比项 | 回归 | 插值 |
|---|---|---|
| 是否必须穿过样本点 | 不一定 | 必须 |
| 是否允许噪声 | 允许 | 通常假设点是准确的 |
| 目标 | 学趋势 | 补中间点 |
| 典型方法 | 线性回归、多项式拟合 | Sinc 插值、拉格朗日插值 |
一句话:
回归追求整体趋势;
插值追求穿过已知点。Sinc插值
一句话功能:
在满足奈奎斯特采样条件时,用离散采样点重建连续信号。核心前提:
采样频率 > 2 × 信号最高频率也就是奈奎斯特采样定理。
如果连续信号是带限信号,采样周期为 ,采样值为 ,那么可以用:
来重建原始连续信号。
其中:
直觉理解是:每一个采样点都会生成一个 sinc 波形,最终连续信号是所有采样点对应 sinc 波形的叠加。
通信里的意义是,Sinc 插值和采样重建、带限信号恢复、数字上采样都有关系。
你可以这样理解:
采样点不是孤立的点;
每个点都通过 sinc 函数影响周围连续时间。拉格朗日插值
一句话功能:
给定若干个点,构造一个多项式,让它严格穿过这些点。假设有 个点:
拉格朗日插值构造:
其中 是第 个拉格朗日基函数。
核心思想是每个基函数 满足:
所以在 时:
也就是说,多项式一定穿过所有采样点。
拉格朗日插值数字例子
给三个点:
(0, 1)
(1, 3)
(2, 2)你想构造一条二次曲线,穿过这三个点。
拉格朗日插值会构造:
最后得到一个二次多项式。
不需要一开始就背公式,先记住本质:
几个点,就构造一个能穿过所有点的多项式。但注意,点太多时,多项式阶数很高,容易震荡,这叫 Runge 现象。
凸优化理论
优化在解决什么问题
优化就是找:
让目标函数最小的参数。比如:
在线性回归里, 可以是预测误差平方和。
在无线算法里,也经常见到:
- 最大吞吐
- 最小功率
- 最小误差
- 最大容量
- 最小干扰
什么是凸优化
简单理解:
如果目标函数像一个碗,只有一个全局最低点,就是凸优化。凸优化的好处是,局部最优就是全局最优。
非凸优化的问题是,可能有很多局部最优,算法容易卡住。
梯度下降法
一句话功能
沿着函数下降最快的方向,一步步走向最小值。核心思想是:
当前位置的负梯度方向,就是函数下降最快的方向。更新公式:
其中:
| 符号 | 含义 |
|---|---|
| 当前参数 | |
| 学习率 / 步长 | |
| 当前点梯度 | |
| 最速下降方向 |
数字例子
假设目标函数:
它的梯度:
如果初始:
x0 = 10
α = 0.1第一次更新:
第二次:
第三次:
它会逐步靠近最小点 。
梯度下降的关键问题:步长
步长太小,收敛很慢。
步长太大,可能震荡,甚至发散。
所以梯度下降最难的是选步长。
有一种说法是“梯度下降不管初值如何选择,一定保证收敛”。这个说法太绝对。
更准确的表述是:
在目标函数满足一定条件,并且步长选择合理时,梯度下降才有收敛保证。不要把工程条件省略成绝对结论。
牛顿法
一句话功能
不仅看梯度,还看曲率,用二阶信息更快逼近最小点。梯度下降只问:
往哪个方向下降?牛顿法还问:
这个方向的弯曲程度是多少?
我一步应该走多远?一维牛顿法公式
对一维函数:
其中:
| 符号 | 含义 |
|---|---|
| 一阶导数,表示斜率 | |
| 二阶导数,表示曲率 |
多维牛顿法公式
其中:
| 符号 | 含义 |
|---|---|
| 梯度 | |
| Hessian 矩阵,也就是二阶导数矩阵 | |
| Hessian 的逆 |
数字例子
目标函数:
一阶导:
二阶导:
牛顿法更新:
这说明,对标准二次函数,牛顿法一步到最优点。
这就是牛顿法快的原因。
牛顿法的问题
牛顿法不是万能的。它的问题包括:
- 需要二阶导数
- 需要求 Hessian 逆
- 计算量大
- 初始点不好时可能不收敛
- Hessian 不是正定时,方向可能不是下降方向
所以实际工程里常用:
- 阻尼牛顿法
- 拟牛顿法
- BFGS
- L-BFGS
梯度下降 vs 牛顿法
| 对比项 | 梯度下降法 | 牛顿法 |
|---|---|---|
| 使用信息 | 一阶梯度 | 一阶梯度 + 二阶曲率 |
| 方向 | 负梯度方向 | 牛顿方向 |
| 收敛速度 | 通常较慢 | 接近最优点时很快 |
| 每步计算量 | 小 | 大 |
| 是否需要 Hessian | 不需要 | 需要 |
| 对初值敏感度 | 相对低 | 相对高 |
| 是否每步下降 | 取决于步长 | 不一定 |
| 适合场景 | 大规模问题 | 中小规模、高精度问题 |
严谨结论:
梯度下降:便宜但慢。
牛顿法:贵但快。四个重点方法怎么串起来
这章的主线应该这样记:
- 回归:我要拟合一个函数
- 插值:我要从采样点重建函数
- 正则化:我要防止模型过拟合
- 优化:我要找到最优参数
四个具体算法:
- Sinc 插值:适合带限信号重建
- 拉格朗日插值:适合有限点多项式插值
- 梯度下降:用一阶导数迭代找最小值
- 牛顿法:用二阶导数更快找最小值
在无线通信里的理解
这些方法不是纯数学,和工程工作也有关。
回归
可用于:
- KPI 拟合
- L2S 映射
- SINR-BLER 曲线拟合
- 仿真误差校准
- 数字孪生参数拟合
插值
可用于:
- 采样信号重建
- 信道估计插值
- 频域 / 时域插值
- CQI 曲线补点
- 仿真表格查表补点
优化
可用于:
- 功率分配
- 调度权重优化
- 波束选择
- 参数寻优
- MCS 门限优化
- 切换门限优化
一页总结表
| 模块 | 核心问题 | 典型方法 | 关键词 |
|---|---|---|---|
| 回归 | 数据有噪声,拟合趋势 | 线性回归、多项式拟合 | 趋势、误差最小 |
| 正则化 | 模型太复杂,泛化差 | L1、L2 | 惩罚大参数 |
| 插值 | 已知点之间补值 | Sinc、拉格朗日 | 穿过采样点 |
| 优化 | 找最优参数 | 梯度下降、牛顿法 | 最小化目标函数 |
现在最该掌握的判断
以后看到一个问题,先问:
这是回归、插值,还是优化?判断标准:
- 如果数据有噪声,想学趋势:回归
- 如果采样点可信,想补中间值:插值
- 如果已经有目标函数,想找最优参数:优化
自测问题
Q1:回归和插值最大区别是什么?
回归不一定穿过所有样本点,插值必须穿过已知点。
Q2:为什么多项式阶数太高容易过拟合?
因为模型表达能力太强,会把噪声也拟合进去。
Q3:正则化为什么能缓解过拟合?
因为它惩罚过大的参数,让模型不要过度复杂。
Q4:Sinc插值的前提是什么?
信号是带限的,并且采样频率大于两倍最高频率。
Q5:梯度下降为什么沿负梯度方向?
因为梯度方向是函数上升最快方向,负梯度方向就是下降最快方向。
Q6:牛顿法为什么快?
因为它利用了二阶曲率信息,尤其在接近最优点时收敛速度很快。
一句话总结
回归解决“从数据中学规律”;
插值解决“从采样点补连续值”;
优化解决“怎么找到最优参数”。Sinc 插值依赖带限采样定理;拉格朗日插值构造穿点多项式;梯度下降靠一阶导数慢慢走;牛顿法靠二阶曲率快速逼近。