分类(Classification)


分类问题属于监督学习
找到一个$function$,输入是对象$x$,输出是对象属于哪一个类别
预测的数据对象都是离散的
回归并不适用于解决分类问题,即使是二分类问题,也会因为有很多距离较大的点,而产生较大的误差

概率生成模型(Probabilistic Generative Model)

即对每一种类别$C_k$分别建立一种数据模型$p(x|C_k)$,把待分类数据$x$分别带入每种模型中,计算后验概率$p(C_k|x)$,选择最大的后验概率对应的类别

假设给定两种类别$C_1,C_2$,输入数据$x$,已知$P(C_1),P(C_2),P(x|C_1),P(x|C_2)$,(即从数据集中抽到$C_1,C_2$的概率、分别从$C_1,C_2$中抽到$x$的概率),可以求出$x$属于某一类的概率
$P(C_1|x)=\dfrac{P(x|C_1)P(C_1)}{P(x|C_1)P(C_1)+P(x|C_2)P(C_2)}$
也可以通过这个Model求出某一$x$出现的概率
$P(x)=P(x|C_1)P(C_1)+P(x|C_2)P(C_2)$

  • 二分类情况
    $p(C_1|x)=\dfrac{1}{1+e^{-\alpha}}\longrightarrow sigmoid$函数
    • $\alpha=ln\dfrac{p(x|C_1)p(C_1)}{p(x|C_2)p(C_2)}$
  • 多分类情况
    $p(C_k|x)=\dfrac{p(x|C_k)p(C_k)}{\sum\limits^{n}_{j=1}{p(x|C_j)p(C_j)}}=\dfrac{e^{\alpha_k}}{\sum e^{\alpha_j}}\longrightarrow Softmax$函数
    • $\alpha_k=ln{p(x|C_k)p(C_k)}$

高斯分布假设

$p(x|C_k)=\dfrac{1}{(2\pi)^{D/2}}\dfrac{1}{|\sum|^{(1/2)}}exp\bigg\{-\dfrac{1}{2}(x-\mu_k)^T\sum^{-1}(x-\mu_k)\bigg\}$

逻辑回归(Logistic Regression)

  • 逻辑回归用来处理因变量为分类变量的回归问题(二分类),线性回归则通常处理的是因变量为连续变量的问题
Function Set
  • 我们想通过一个函数集$f_{w,b}(x)$来求出$P_{w,b}(C_1|x)$
  • 可以设$f_{w,b}(x)=\sigma(\sum\limits_iw_ix_w+b)$输出z通过Sigmoid函数
    判断函数的好坏
  • 我们设一组$w,b$参数在已知一组训练集情况下$x=\{x^1,x^2,x^3\dots\}\quad y=\{C_1,C_1,C_2\dots\}$的$L(w,b)=f_{w,b}(x^1)f_{w,b}(x^2)(1-f_{w,b}(x^3)\dots$
  • 找到一组$w^,b^$使得$arg\max\limits_{w,b}L(w,b)$能取到最大值,等价于$arg\min\limits_{w,b}-\ln L(w,b)$
  • 在二分类问题中假设$\hat y^n\in\{0,1\}$,那么$L(w,b)=\sum\limits_n-\big[\hat y^n\ln f_{w,b}(x^n)+(1-\hat y^n)\ln(1-f_{w,b}(x^n))\big]$可以称方括号内的公式为Cross entropy
找到一个最好的函数
  • 对函数L求偏微分
    $\dfrac{-\ln L(w,b)}{\partial w_i}=\sum\limits_n-(\hat y^n-f_{w,b}(x^n))x^n_i$
  • 参数更新使用Gradient Descent$w_i\leftarrow w_i-\eta\sum\limits_n(\hat y^n-f_{w,b}(x^n))x^n_i$