03 机器学习

01 机器学习基本概念

目标:

监督学习

监督学习:

  1. 标注数据:学习过程的输入,由明确标记了正确输出类别或值的数据点组成
    1. 通过提供“真实值”来决定“学什么”
  2. 学习模型:从标注数据中学习模式的算法或结构
    1. 定义了机器将如何获得自我学习能力,即“如何学”
  3. 损失函数:量化了模型预测与真实标签之间的差异
    1. 通过提供可衡量的学习结果指标来回答“学到否”的问题

在训练过程中,映射函数 f(学习模型)的主要目标是最小化整个训练数据集上的累积“损失”。 这可以表示为:

mini=1nLoss(f(xi),yi)

训练数据与测试数据:
Pasted image 20250529174555.png|375

经验风险 empirical risk 与期望风险 expected risk

“过学习 (over-fitting)”与“欠学习 (under-fitting)”

结构风险最小化 structural risk minimization

minfΦ1ni=1nLoss(yi,f(xi))+λJ(f)

监督学习方法

监督学习方法


02 回归分析

分析不同变量之间存在关系的研究叫回归分析,刻画不同变量之间关系的模型被称为回归模型

Pasted image 20250520100548.png|375

一元线性回归

回归模型参数求取: yi=axi+b (1in)

目标: 寻找一组 ab,使得误差总和 L(a,b) 值最小。在线性回归中,解决如此目标的方法叫最小二乘法

多元线性回归

多维数据特征中线性回归的问题定义如下:假设总共有 m 个训练数据 {(xi,yi)}i=1m, 其中 xi=[xi,1,xi,2,...,xi,D]RD, D 为数据特征的维度,线性回归就是要找到一组参数 a=[a0,a1,...,aD], 使得线性函数:

f(xi)=a0+j=1Dajxi,j=a0+aTxi

最小化均方误差函数:

Jm=1mi=1m(yif(xi))2

为了方便,使用矩阵来表示所有的训练数据和数据标签。

X=[x1,,xm],y=[y1,,ym]

其中每一个数据 xi 会扩展一个维度,其值为 1,对应参数 a0

逻辑斯蒂回归/对数几率回归

线性回归一个明显的问题是对离群点非常敏感,导致模型建模不稳定,使结果有偏

逻辑斯蒂回归 (logistic regression) 就是在回归模型中引入 sigmoid 函数的一种非线性回归模型。Logistic 回归模型可如下表示:

y=11+ez=11+e(wTx+b),其中y(0,1),z=wTx+b

这里 11+ez 是 sigmoid 函数、xRd 是输入数据、wRdbR 是回归函数的参数。

Pasted image 20250523130546.png|227

Sigmoid 函数性质

  • 函数是单调递增的,其值域为 (0,1), 可用作概率值
  • 对输入 z 没有取值范围限制,但当 z 大于 (小于) 一定数值后,函数输出无限逼近 1 (0), 当 z 等于 0 时,函数输出为 0.5
  • z 取值在 0 附近时,函数输出值变化比较大,且是非线性变化,但 z 取值很大或很小时,函数输出值几乎不变

逻辑斯蒂回归函数的输出具有概率意义,更多用于二分类问题(y=1 表示输入数据𝒙属于正例,y=0 表示输入数据𝒙属于负例)

y=11+e(wTx+b)

可用来计算输入数据 x 属于正例概率,这里 y 理解为输入数据 x 为正例的概率,即 p(y=1|x)1y 理解为输入数据 x 为负例的概率,即 p(y=0|x)


03 决策树

Pasted image 20250409094237.png|450

属性划分方法:

信息增益

信息熵(entropy)是度量样本集合纯度最常用的一种指标

假设有 K 个信息 (类别), 其组成了集合样本 D, 记第 k 个信息 (类别) 发生的概率为 pk(1kK)。如下定义这 K 个信息的信息熵:

Ent(D)=k=1Kpklog2pk

构建决策树时划分属性的顺序选择是重要的。性能好的决策树随着划分不断进行,决策树分支结点样本集的“纯度”会越来越高,即其所包含样本尽可能属于相同类别。

信息增益的计算:

Gain(D,A)=Ent(D)i=1n|Di||D|Ent(Di)
信息增益对可取值数目较多的属性有所偏好

存在的问题:若把“编号”也作为一个候选划分属性,则其信息增益一般远大于其他属性。显然,这样的决策树不具有泛化能力,无法对新样本进行有效预测

因为一个编号对应一个结果,决策树就会直接学习到编号和标签之间的结论,但这个是无意义的

增益率和基尼系数

Info 和 Gain-ratio(增益率)计算公式如下:

info=i=1n|Di||D|log2|Di||D|Gainratio=Gain(D,A)/info
增益率准则对可取数目较少的属性有所偏好

一个启发式:

更简的度量指标是如下的 Gini 指数(基尼指数):

Gini(D)=1k=1Kpk2

连续属性离散化(二分法)

第一步:假定连续属性a在样本集D上出现n个不同的取值,从小到大排列,记为 a1,a2,...An, 基于划分点 t, 可将D分为子集DtDt+, 其中Dt包含那些在属性a上取值不大于t的样本,Dt+包含那些在属性a 上取值大于t的样本。考虑包含 n1个元素的候选划分点集合

Ta={ai+ai+121in1}

即把区间[ai,ai+1) 的中位点 ai+ai+12作为候选划分点

第二步:采用离散属性值方法,考察这些划分点,选取最优的划分点进行样本集合的划分

Gain(D,a)=maxtTaGain(D,a,t)=maxtTaEnt(D)λ{,+}|Dtλ||D|Ent(Dtλ)

其中 Gain(D,a,t) 是样本集D基于划分点t二分后的信息增益,于是,就可选择使 Gain(D,a,t)最大化的划分点

剪枝处理

对付“过拟合”:避免因决策分支过多,以致于把训练集自身的一些特点当做所有数据都具有的一般性质而导致的过拟合

留出法:预留一部分数据用作“验证集”以进行性能评估

多变量决策

Pasted image 20250409103311.png|375


04 线性区别分析 LDA

线性判别分析 (linear discriminant analysis, LDA)
也称为 Fisher 线性判别分析(fisher'sdiscriminant analysis,FDA) [Fisher 1936]

在低维空间中同一类别样本尽可能靠近,不同类别样本尽可能彼此远离

Pasted image 20250409104720.png|425

4.1 符号定义

定义 X 为所有样本构成集合、Ni 为第 i 个类别所包含样本个数、Xi 为第 i 类样本的集合、m 为所有样本的均值向量、mi 为第 i 类样本的均值向量。Σi 为第 i 类样本的协方差矩阵,其定义为:

Σi=xXi(xmi)(xmi)TΣi=xXi((x1mi1)2(x1mi1)(x2mi2)(x1mi1)(xdmid)(x2mi2)(x1mi1)(x2mi2)2(x2mi2)(xdmid)(xdmid)(x1mi1)(xdmid)(x2mi2)(xdmid)2)

4.2 二分类问题

即 K = 2 的情况

在二分类问题中,训练样本归属于 C1C2 两个类别,并通过如下的线性函数投影到一维空间上:

y(x)=wTx(wRd)

投影之后类别C1的协方差矩阵s1为:

s1=xC1(wTxwTm1)2=wTxC1[(xm1)(xm1)T]w

同时考虑上面两点,就得到了需要最大化的目标J(w), 定义如下:

J(w)=m2m122s1+s2J(w)=wT(m2m1)2wTΣ1w+wTΣ2w=wT(m2m1)(m2m1)TwwT(Σ1+Σ2)w=wTSbwwTSww Sb=(m2m1)(m2m1)T Sw=Σ1+Σ2
矩阵求导

4.3 多分类问题

考试不作要求

假设 n 个原始高维 (d 维) 数据所构成的类别种类为 K、每个原始数据被投影映射到低维空间中的维度为 r
令投影矩阵W=(w1,w2,...,wr),可知 W 是一个 d×r 矩阵

类内散度矩阵SW重新定义如下:

SW=Σi=1KΣi

类间散度矩阵Sb重新定义如下:

Sb=i=1KNiN(mim)(mim)T

“类内方差小、类间间隔大”

Quote

逻辑上理解,每一个 1×d 的参数向量 w 都将 d×1 的向量映射到了一个维度上,所以 r 个参数向量能够将 d×1 的向量映射到一个 r 维度上的空间

4.4 降维步骤

  1. 计算数据样本集中每个类别样本的均值
  2. 计算类内散度矩阵 Sw 和类间散度矩阵 Sb
  3. 根据 Sw1SbW=λW 来求解 Sw1Sb 所对应前 r 个最大特征值所对应特征向量 (w1,w2,...,wr),构成矩阵 W
  4. 通过矩阵 W 将每个样本映射到低维空间,实现特征降维

05 Ada Boosting

考试不作要求

核心思想:对于一个复杂的分类任务,可以将其分解为若干子任务,然后将若干子任务完成方法综合,最终完成该复杂任务

5.1 计算学习理论

概率近似正确 (probably approximately correct, PAC)

5.2 思路描述

核心问题:

和投票集成思路比较像

给定包含 N 个标注数据的训练集合Γ,Γ=(x,y),,(xN,yN) x(1iN)XRnyY={1,1}

  1. 初始化每个训练样本的权重D1=(w11,,w1i,,w1N), 其中 w1i=1N(1iN)
  2. 第 m 个弱分类器的训练:对 m=1,2,,M
    1. 使用具有分布权重 Dm 的训练数据来学习得到第 m 个基分类器(弱分类器) Gm
    Gm(x):X{1,1}
    1. 计算 Gm(x) 在训练数据集上的分类误差
    errm=i=1Nwm,iI(Gm(xi)yi)这里:如果 Gm(xi)yiI()=1;否则为 0
    3) 计算弱分类器 Gm(x) 的权重:
    $$\alpha_m = \frac{1}{2} \ln \frac{1 - err_m}{err_m}$$
    权重 αmerrm 减少而增大,错误率越小的弱分类器会赋予更大的权重
    4) 更新训练样本数据的分布权重: Dm+1=(wm+1,1,,wm+1,i,,wm+1,N)wm+1,i=wm,iZmeαmyiGm(xi),其中 Zm 是归一化因子以使得 Dm+1 为概率分布,Zm=i=1Nwm,ieαmyiGm(xi)wm+1,i={wm,iZmeαm,Gm(xi)=yiwm,iZmeαm,Gm(xi)yi也就是说,在开始训练第 m+1 个弱分类器 Gm+1(x) 之前,会对训练数据集中的数据权重进行调整,被错误分类的样本会被'重点关注'
  3. 以线性加权形式来组合弱分类器 f(x): 弱分类器构造强分类器f(x)=i=1MαmGm(x)得到强分类器 G(x)G(x)=sign(f(x))=sign(i=1MαmGm(x))

5.3 回看霍夫丁不等式

假设有个弱分类器 (1≤m≤M),则 M 个弱分类器线性组合所产生误差满足如下条件:

P(i=1MGm(x)ζ(x))e12M(12ϵ)2

06 支持向量机

考试不作要求

期望风险(即真实风险)R与经验风险Remp之间是有差别的,这个差别项被称为置信风险

VC 维:是对假设空间 H 复杂度的一种度量

线性可分支持向量机

Pasted image 20250606142522.png|425

寻找一个最优的超平面,其方程为wTx+b=0。这里w= (w1,w2,...,wd)为超平面的法向量,与超平面的方向有关

支持向量机学习算法会去寻找一个最佳超平面,使得每个类别中距离超平面最近的样本点到超平面的最小距离最大

松弛变量,软间隔与 hinge 损失函数

硬间隔:存在一个线性超平面能将不同类别样本完全隔开
软间隔:允许部分错分给定的训练样本

核函数

将线性不可分样本从原始空间映射到一个更加高维的特征空间中去,使得样本在这个特征空间中高概率线性可分

如果原始空间是有限维,那么一定存在一个高维特征空间使样本可分

常见核函数:

线性 κ(xi,xj)=xixj
多项式 κ(xi,xj)=(γxixj+c)n
Radial basis function $$\kappa (x_{i}, x_{j})=e^{-\frac{\left\Vert x_{i}-x_{j}\right\Vert^{2}}{2\sigma^{2}}}$$
Sigmoid κ(xi,xj)=tanh(xi,xjγ)

07 生成学习模型

考试不作要求
P(x,ci)=P(x|ci)似然概率×P(ci)先验概率P(ci|x)后验概率=P(x,ci)联合概率P(x)=P(x|ci)似然概率×P(ci)先验概率P(x)

Copyright © 2025 Casette.
Made with Obsidian DG.