蜡笔小鸡 阅读(12) 评论(0)

一 回顾

在前两篇博文中,主要对感知器的模型推导做了一些阐述,并顺手实现了算法。

可以发现单个感知器算法的实现过程中,权值调整的收敛条件,是依靠一个比较绝对的判断的,这个绝对的意思就是:训练数据绝对正确(我们不断地迭代修改权值,当响应与训练数据的期望一致时,停止迭代)。

这在数据比较工整的时候,效果还不错。如果我们的训练数据里包含了错误的分类,这样绝对的收敛条件仍然是正确的吗?

申明:本博文的公式仅仅是用来辅助推导的,如果看不懂,只要明白这个公式的意义就行。

当然如果有兴趣的,可以自己尝试一下推导这些公式

 

二 线性回归模型

2.1直观印象

线性回归可以直观的展示如下所示

我们可以看出线性回归的直接作用就是找出一条“最佳的直线”,预测出y(纵坐标)于x(横坐标)的关系。

这里并不会有很多的数学公式来定义这个“最佳直线”,可以用一句话来说清楚这个“最佳”-----最接近数据本身要表达的意义。

那这些数据要表达的意义是什么呢?

 

 

 

我们来想想一下这个场景,我们测量一个通过电阻的电流 于 电阻两端的电压(不断地增加电流大小,测出电阻两端地电压)。

电压于电阻的关系 可以看成一条直线 y=ax。

由于环境地温度或者湿度等等因素地影响,测出的电压-电流关系 并不是一条工整的直线(如上图所示)。

那么是不是就无法测量出电阻的大小了呢?(电压除以电流)

答案是否定的,假如环境的误差是随机产生的,那么在这个环境中测量出的数据,是服从正态分布的(如下图所示)

如下所示,我们可以这么理解:假如环境对每次的测量的干扰是随机的(本次测量与上次产生误差的概率相同),数据的均值是不发生变化的(数据的真实意义),测量出的数据有68.2%的数据落在一倍均方差范围之内,99.7%的数据落在3倍均方差的范围之内。(2倍的情况大家可以自己算一下)

如果都明白了这个关系,我们可以尝试一下,用这个方法,去倾听数据要表达的真是意思了。

 

 

2.2 高斯分布

如下所示,就是高斯分布的函数了。

我们发现这个高斯函数少了一个表示数据均值的 参数u,大家简单理解为u=0即可。

一定要刨根问到底,我个人的理解是这样的,高斯分布专注于研究数据噪声,对样本的均值并不感兴趣。找到能产生最小噪声的位置(数据出现概率最大的位置),一定就是数据的真实意义所在的位置

公式中的ε表示测量误差

 

 

2.3 测量误差

在提测量误差之前,我们先给出线性回归的模型如下:

求和符号表示多维数据,一维的就仅仅是d=w*x+ε

x表示输入数据,w表示回归系数(权值),d表示数据的期望响应(不是统计学上的期望值,而是我们数据的真实测量结果)

w*x 表示回归模型的计算结果(测量结果)。

 

我们将误差带入高斯函数中。得到如下所示的形式,这表示

 

在回归模型中,这表示为观测密度,用通俗的话说就是,取一个权值(回归系数)此时权值固定,计算出正确结果的(观测)概率。

 

我们上面说的模型,关注于观测误差(模型计算的预测结果与真实测量结果)这个层面的问题。

但是我们要考虑一点,计算出正确结果是否是随意取一个权值就可以呢,如果权值的选择是错误的,计算出正确结果的概率还是如上面的公式那样吗?

假如权值选择是错误的,但是由于权值的误差存在,导致模型能够计算出正确结果。这样的情况,我们并没有排除。

毕竟我们直观的感受就是,这次测量正确的概率是多少。

例如早晨上班迟到这个事件。

假如迟到与是否睡过头/路上是否堵车2个事件相关,并且遇到睡过头+堵车同时发生在你的身上,你才会迟到。

那么我们要计算你迟到的概率,就必须将你睡过头的概率与堵车的概率相乘。这才是你迟到的概率。

 

同理,要知道一个回归模型的预测结果是否正确,就需要回归系数正确+观测结果正确这两个条件同时满足。回归模型预测的正确的概率,如下所示,

 

 

上面这个公式给表明 回归模型计算正确结果的概率 ,不仅仅与观测密度有关,还要乘以一个权值被正确选择的概率。

这  可以理解为回归系数正确的概率(实际上表示回归系数)

 

最终化简为如下形式

 

这个公式表达的意思为:模型预测正确的概率与式子右边的指数函数成正比。

 

回到正题,我们要计算出能够使整个概率达到最大值的回归系数(权值)w。

这里用一个数学变换,将这个问题转换为找到回归系数,使下式的能取到最小值。

 

如上市所述,我们引入了一个参数 λ,这个表示我们对模型误差大小的定义。

假如我们对模型非常有信心(我们的数据采集非常的顺利,几乎能肉眼看出数据关系的),那么可以取λ=0;

另一种情况就是相反的,我们的数据采集过程中存在大量的干扰项,那么可以取λ为无穷大。

λ的取值范围[0,∞),这在机器学习中是一个非常重要的参数。

 

 

2.4 回顾

 

1 根据线性回归的直观显示,去寻找数据要表达的真正意义;

2 根据对随机实验的特性,我们找到了定义误差的方法,并且拿到了趁手的工具(高斯分布函数),凭曲线救国,去寻早能使回归模型误差最小的的回归系数。

3 分析事件的相关性,确认更加具有普遍性的函数关系。

4 归化问题为一个求二次函数的最小值问题