diff --git a/README.md b/README.md
index 8be7ec15e5fc46492c538ab918c72c6636adf042..1fb033841ebd0c4cadd3dcfe57425f5cc2ecfc03 100644
--- a/README.md
+++ b/README.md
@@ -1,11 +1,8 @@
# Course_MLPR
-#### 介绍
-武汉大学机器学习与模式识别课程实验代码
+武汉大学机器学习与模式识别课程实验
-#### 使用说明
-
-1. 大作业要求详见[`大作业`]()
-2. 课后作业答案详见[`课后作业`]()
-3. 实验指导及实验报告模板详见[`实验及报告`]()
+1. 大作业要求详见[`大作业`](https://gitee.com/whu_mmap_cliang/Course_MLPR/tree/temp/%E5%A4%A7%E4%BD%9C%E4%B8%9A)
+2. 课后作业答案详见[`课后作业`](https://gitee.com/whu_mmap_cliang/Course_MLPR/tree/temp/%E8%AF%BE%E5%90%8E%E4%BD%9C%E4%B8%9A)
+3. 实验指导及实验报告模板详见[`实验及报告`](https://gitee.com/whu_mmap_cliang/Course_MLPR/tree/temp/%E5%AE%9E%E9%AA%8C%E5%8F%8A%E6%8A%A5%E5%91%8A)
diff --git "a/\345\244\247\344\275\234\344\270\232/\346\225\260\346\215\256\351\233\206\344\275\277\347\224\250\350\257\264\346\230\216.md" "b/\345\244\247\344\275\234\344\270\232/\346\225\260\346\215\256\351\233\206\344\275\277\347\224\250\350\257\264\346\230\216.md"
index dcfd75c4c43c77c3231bb3b0024d2b67fe48effc..bc92f4738b073fe722a7b9358dfd5713d4156991 100644
--- "a/\345\244\247\344\275\234\344\270\232/\346\225\260\346\215\256\351\233\206\344\275\277\347\224\250\350\257\264\346\230\216.md"
+++ "b/\345\244\247\344\275\234\344\270\232/\346\225\260\346\215\256\351\233\206\344\275\277\347\224\250\350\257\264\346\230\216.md"
@@ -86,9 +86,9 @@
## 6 提交格式
-`小组名称.mat`
+`姓名-学号.mat`
-
+
e.g. label = 1, shot = 'shot222_33 '
diff --git "a/\350\257\276\345\220\216\344\275\234\344\270\232/pics/2-4-1.png" "b/\350\257\276\345\220\216\344\275\234\344\270\232/pics/2-4-1.png"
deleted file mode 100644
index 132363d55d3b730ae31b866f3e27df5939ea6105..0000000000000000000000000000000000000000
Binary files "a/\350\257\276\345\220\216\344\275\234\344\270\232/pics/2-4-1.png" and /dev/null differ
diff --git "a/\350\257\276\345\220\216\344\275\234\344\270\232/pics/2-4-2.png" "b/\350\257\276\345\220\216\344\275\234\344\270\232/pics/2-4-2.png"
deleted file mode 100644
index e8e8a245a383d4fb80b5c677b9bf5bd5dfdeac29..0000000000000000000000000000000000000000
Binary files "a/\350\257\276\345\220\216\344\275\234\344\270\232/pics/2-4-2.png" and /dev/null differ
diff --git "a/\350\257\276\345\220\216\344\275\234\344\270\232/pics/2-4-3.png" "b/\350\257\276\345\220\216\344\275\234\344\270\232/pics/2-4-3.png"
deleted file mode 100644
index 979408f36cae87f3f7c965df94c48ba726bf497e..0000000000000000000000000000000000000000
Binary files "a/\350\257\276\345\220\216\344\275\234\344\270\232/pics/2-4-3.png" and /dev/null differ
diff --git "a/\350\257\276\345\220\216\344\275\234\344\270\232/pics/56-3-1.png" "b/\350\257\276\345\220\216\344\275\234\344\270\232/pics/56-3-1.png"
deleted file mode 100644
index d358df61061e2ca567f2ebcb5509ff713685173b..0000000000000000000000000000000000000000
Binary files "a/\350\257\276\345\220\216\344\275\234\344\270\232/pics/56-3-1.png" and /dev/null differ
diff --git "a/\350\257\276\345\220\216\344\275\234\344\270\232/pics/78-4-1.png" "b/\350\257\276\345\220\216\344\275\234\344\270\232/pics/78-4-1.png"
deleted file mode 100644
index aa50a942302999c6a7c37772e53f19a87b0fe6c2..0000000000000000000000000000000000000000
Binary files "a/\350\257\276\345\220\216\344\275\234\344\270\232/pics/78-4-1.png" and /dev/null differ
diff --git "a/\350\257\276\345\220\216\344\275\234\344\270\232/pics/78-4-2.png" "b/\350\257\276\345\220\216\344\275\234\344\270\232/pics/78-4-2.png"
deleted file mode 100644
index 364d4fec1ff69fbc3ffa33c5c953c85809691433..0000000000000000000000000000000000000000
Binary files "a/\350\257\276\345\220\216\344\275\234\344\270\232/pics/78-4-2.png" and /dev/null differ
diff --git "a/\350\257\276\345\220\216\344\275\234\344\270\232/pics/78-4-3.png" "b/\350\257\276\345\220\216\344\275\234\344\270\232/pics/78-4-3.png"
deleted file mode 100644
index 024adf688ca984497009a63836b2491f6fb442cc..0000000000000000000000000000000000000000
Binary files "a/\350\257\276\345\220\216\344\275\234\344\270\232/pics/78-4-3.png" and /dev/null differ
diff --git "a/\350\257\276\345\220\216\344\275\234\344\270\232/\347\254\254\344\270\200\346\254\241\350\257\276\345\220\216\344\275\234\344\270\232.md" "b/\350\257\276\345\220\216\344\275\234\344\270\232/\347\254\254\344\270\200\346\254\241\350\257\276\345\220\216\344\275\234\344\270\232.md"
index e65dc7273664b02d4a077d038cb110d1928e4c47..e88e2362f69a21178f591757c97ade68bf45962a 100644
--- "a/\350\257\276\345\220\216\344\275\234\344\270\232/\347\254\254\344\270\200\346\254\241\350\257\276\345\220\216\344\275\234\344\270\232.md"
+++ "b/\350\257\276\345\220\216\344\275\234\344\270\232/\347\254\254\344\270\200\346\254\241\350\257\276\345\220\216\344\275\234\344\270\232.md"
@@ -1,196 +1,210 @@
# 第一次课后作业解答
-
+
## 第1讲 绪论
-1. **(1)对一位去医院做疾病诊断的病人而言,诊断技术的查全率重要还是查准率更重要?给出理由。**
+
- **(2)对不断向你推荐商品的网站,该网站的商品推荐系统的查全率还是查准率你更关注?给出理由。**
+1. (1)对一位去医院做疾病诊断的病人而言,诊断技术的查全率重要还是查准率更重要?给出理由。
- 做疾病诊断的病人肯定关注诊断技术的查全率。受网站推荐商品困扰的用户肯定关注推荐系统的查准率。
+ (2)对不断向你推荐商品的网站,该网站的商品推荐系统的查全率还是查准率你更关注?给出理由。
-
+> 做疾病诊断的病人肯定关注诊断技术的查全率。受网站推荐商品困扰的用户肯定关注推荐系统的查准率。
+
+
-2. **(1) 简述数据模型的泛化能力与过拟合现象这两个概念;说明两者之间存在的一般性关系。**
+2. (1) 简述数据模型的泛化能力与过拟合现象这两个概念;说明两者之间存在的一般性关系。
- **(2)借助模型的过拟合和泛化能力背后的原理,分析个人的专业学习与职业发展前景之间的关系(可以结合自己的经验)。**
+ (2)借助模型的过拟合和泛化能力背后的原理,分析个人的专业学习与职业发展前景之间的关系(可以结合自己的经验)。
- 模型的泛化能力就是指模型对新数据(模拟训练时未见到过的数据)时的预测与分类能力,即使这些新数据的分布与训练数据是相同的。模型的过拟合现象是指:模型对训练数据集的完美拟合(形象说,不仅拟合的规律性模式,也拟合了随机性噪声),导致模型的泛化能力下降。简单说,过拟合现象反映了模型专注于对细节的几乎是记忆性的模拟,而忽视了数据中一般性模式的发现。
+> 模型的泛化能力就是指模型对新数据(模拟训练时未见到过的数据)时的预测与分类能力,即使这些新数据的分布与训练数据是相同的。模型的过拟合现象是指:模型对训练数据集的完美拟合(形象说,不仅拟合的规律性模式,也拟合了随机性噪声),导致模型的泛化能力下降。简单说,过拟合现象反映了模型专注于对细节的几乎是记忆性的模拟,而忽视了数据中一般性模式的发现。
-
+
## 第2讲 线性判别分类
-1. **线性回归与逻辑回归在模型设定、目标函数和求解算法上,有何相似和不同之处?**
+
- 两种都是关于广义线性模型。线性回归模型的响应变量是连续定量数据,一般设定为服从正态分布(实际上就是认为观察噪声的分布为正态分布),主要用于数值预测。逻辑回归的响应变量则是离散的定性数据,其概率分布设定为二项分布(二分类)或多项分布(多分类问题)。
+1. 线性回归与逻辑回归在模型设定、目标函数和求解算法上,有何相似和不同之处?
- 两种方法的目标函数都使用数据集的似然函数,优化原则就是最大似然法。
+> 两种都是关于广义线性模型。线性回归模型的响应变量是连续定量数据,一般设定为服从正态分布(实际上就是认为观察噪声的分布为正态分布),主要用于数值预测。逻辑回归的响应变量则是离散的定性数据,其概率分布设定为二项分布(二分类)或多项分布(多分类问题)。两种方法的目标函数都使用数据集的似然函数,优化原则就是最大似然法。两种方法的参数求解,都是用梯度法、拟牛顿法(对二阶Hesse矩阵进行近似)进行求解。
- 两种方法的参数求解,都是用梯度法、拟牛顿法(对二阶Hesse矩阵进行近似)进行求解。
+
-
+2. 如果你想将图片分类为户外/室内以及白天/黑夜。你应该实现两个逻辑回归分类器还是一个Softmax 回归分类器?
-2. **如果你想将图片分类为户外/室内以及白天/黑夜。你应该实现两个逻辑回归分类器还是一个Softmax 回归分类器?**
+> 要将图片分类为户外/室内和白天/夜间,你应该训练两个逻辑回归分类器,因为这些类别之间并不是排他的(存在四种组合)。
- 要将图片分类为户外/室内和白天/夜间,你应该训练两个逻辑回归分类器,因为这些类别之间并不是排他的(存在四种组合)。
+
-
+3. (1)逻辑回归实际上是用样本点的回归函数值的logistic变换值来拟合样本点属于正类的概率。简要说明这种建模方法的合理性和不合理之处。
-3. **(1)逻辑回归实际上是用样本点的回归函数值的logistic变换值来拟合样本点属于正类的概率。简要说明这种建模方法的合理性和不合理之处。**
+ (2)能否用正态随机变量的累积分布函数来替换logistic函数,作为逻辑回归中的概率变换函数?为什么?还能想到其他的可用于逻辑回归的变换函数吗?
- **(2)能否用正态随机变量的累积分布函数来替换logistic函数,作为逻辑回归中的概率变换函数?为什么?还能想到其他的可用于逻辑回归的变换函数吗?**
+> (1)合理之处:在某些情况下,数据点离类间边界的距离,的确可以反映该数据点属于某类的“程度”,把程度理解为“类的隶属度”也是可以的,尤其在分类应用中,主要目标就是离类间边界越远越好。但是不合理之处在于,逻辑回归分类本质上是一种概率分类:先获得类别的概率分布,再利用数据点的在模型下计算出的“概率值”进行分类,而概率分类存在一个共同的问题,就是对明显的线性可分数据,也能产生错误的判别。
+(2)可以用正态分布的累积分布函数$\phi(x)$,可以代替逻辑回归logistic函数,其反函数就是Φ-1(p)即使下p分位点,反函数类似于logit变换,也是可以把一个[0, 1之间的正数变换到整个实数轴,且是严格单调增的。其实这就是所谓probit回归。但是这里有一个问题,这个函数的导数不方便计算,因此现在不再使用(其实逻辑回归就是从早期的probit回归演变而来的)。
- 合理之处:在某些情况下,数据点离类间边界的距离,的确可以反映该数据点属于某类的“程度”,把程度理解为“类的隶属度”也是可以的,尤其在分类应用中,主要目标就是离类间边界越远越好。但是不合理之处在于,逻辑回归分类本质上是一种概率分类:先获得类别的概率分布,再利用数据点的在模型下计算出的“概率值”进行分类,而概率分类存在一个共同的问题,就是对明显的线性可分数据,也能产生错误的判别。
-
- 可以用正态分布的累积分布函数Φ(x),可以代替逻辑回归logistic函数,其反函数就是Φ-1(p)即使下p分位点,反函数类似于logit变换,也是可以把一个[0, 1之间的正数变换到整个实数轴,且是严格单调增的。其实这就是所谓probit回归。但是这里有一个问题,这个函数的导数不方便计算,因此现在不再使用(其实逻辑回归就是从早期的probit回归演变而来的)。
+
-
+4. 一个三类问题,其判别函数为$d_1(\boldsymbol{X}) = x_1+2x_2-4$,$d_2(\boldsymbol{X}) = x_1-4x_2+4$,$d_3(\boldsymbol{X})=-x_1+3$。
-4. **一个三类问题,其判别函数为$d_1(\boldsymbol{X}) = x_1+2x_2-4$,$d_2(\boldsymbol{X}) = x_1-4x_2+4$,$d_3(\boldsymbol{X})=-x_1+3$**
+ (1)设这些函数是在多类情况1条件下确定的,绘出判别界面及每一模式类别的区域。
- **(1) 设这些函数是在多类情况1条件下确定的,绘出判别界面及每一模式类别的区域。**
+ (2)设为多类情况2,并使$d_{12}(\boldsymbol{X})=d_1(\boldsymbol{X})$,$d_{13}(\boldsymbol{X})=d_2(\boldsymbol{X})$,$d_{23}(\boldsymbol{X})=d_3(\boldsymbol{X})$,绘出判别界面及每一模式类别的区域。
- **(2) 设为多类情况2,并使$d_{12}(\boldsymbol{X})=d_1(\boldsymbol{X})$,$d_{13}(\boldsymbol{X})=d_2(\boldsymbol{X})$,$d_{23}(\boldsymbol{X})=d_3(\boldsymbol{X})$,绘出判别界面及每一模式类别的区域。**
+ (3) 设$d_1(\boldsymbol{X})$,$d_2(\boldsymbol{X})$和$d_3(\boldsymbol{X})$是在多类情况3的条件下确定的,绘出其判别界面及每一模式类别的区域。
+
+
+解答: + +(1)多类情况1时的判别界面及每一模式类别的区域如图1所示。 - **(3) 设$d_1(\boldsymbol{X})$,$d_2(\boldsymbol{X})$和$d_3(\boldsymbol{X})$是在多类情况3的条件下确定的,绘出其判别界面及每一模式类别的区域。** - - - - (1)多类情况1时的判别界面及每一模式类别的区域如下图所示。 - -+- (2)多类情况2时的判别界面及每一模式类别的区域如下图所示。 +(2)多类情况2时的判别界面及每一模式类别的区域如图2所示。 -
- (3)多类情况3时三个判别界面方程为: +(3)多类情况3时三个判别界面方程为: - $d_1(\boldsymbol{X})-d_2(\boldsymbol{X})=(x_1+2x_2-4)-(x_1-4x_2+4)=6x_2-8=0$,即$3x_2-4=0$ +$d_{1}(\boldsymbol{X})-d_{2}(\boldsymbol{X})=(x_{1}+2x_{2}-4)-(x_{1}-4x_{2}+4)=6x_{2}-8=0$,即$3x_{2}-4=0$ - $d_1(\boldsymbol{X})-d_3(\boldsymbol{X})=(x_1+2x_2-4)-(-x_1+3)=2x_1+2x_2-7=0$ +$d_1(\boldsymbol{X})-d_3(\boldsymbol{X})=(x_1+2x_2-4)-(-x_1+3)=2x_1+2x_2-7=0$ - $d_2(\boldsymbol{X})-d_3(\boldsymbol{X})=(x_1-4x_2+4)-(-x_1+3)=2x_1-4x_2+1=0$ +$d_2(\boldsymbol{X})-d_3(\boldsymbol{X})=(x_1-4x_2+4)-(-x_1+3)=2x_1-4x_2+1=0$ - 满足$d_1(\boldsymbol{X})-d_2(\boldsymbol{X})>0$且$d_1(\boldsymbol{X})-d_3(\boldsymbol{X})>0$的区域属于$\omega_1$类分布区域。 +满足$d_1(\boldsymbol{X})-d_2(\boldsymbol{X})>0$且$d_1(\boldsymbol{X})-d_3(\boldsymbol{X})>0$的区域属于$\omega_1$类分布区域。 - 满足$d_2(\boldsymbol{X})-d_1(\boldsymbol{X})>0$且$d_2(\boldsymbol{X})-d_3(\boldsymbol{X})>0$的区域属于$\omega_2$类分布区域。 +满足$d_2(\boldsymbol{X})-d_1(\boldsymbol{X})>0$且$d_2(\boldsymbol{X})-d_3(\boldsymbol{X})>0$的区域属于$\omega_2$类分布区域。 - 满足$d_3(\boldsymbol{X})-d_1(\boldsymbol{X})>0$且$d_3(\boldsymbol{X})-d_2(\boldsymbol{X})>0$的区域属于$\omega_3$类分布区域。 +满足$d_3(\boldsymbol{X})-d_1(\boldsymbol{X})>0$且$d_3(\boldsymbol{X})-d_2(\boldsymbol{X})>0$的区域属于$\omega_3$类分布区域。 - 判别界面及各模式类的区域如下图所示。 +判别界面及各模式类的区域如图3所示。 -
+
+解1: - 基本假设就是在已知样本的类别时,样本的各个特征(属性)之间是条件独立的。比如,设“一个人是否高收入”为样本的类别(Y=1表示高收入),同时设“一个人是否经常购买高档白酒”为属性X1(X1=1表示经常购买高档白酒),设“一个人是否经常购买高档服装”为属性X2(X2=1表示经常购买高档服装)。(1)在不知道一个人的收入情况下,也就是说在人群总体中进行一般调查时,从计算角度看,属性X1和属性X2肯定存在一定的“相关关系”(也就是说,肯定有部分人员既经常购买高档白酒,也经常购买高档服装),因此不能排除这两个属性在人群总体中存在一定的依赖关系。(2)但是在知道了一个人是高收入的情况下,“是否经常购买高档白酒”与“是否经常购买高档服装”就是互不依赖的,因为此时这两个属性都是真正的原因“高收入”引起的,而不是相互引起的(经常买高品质白酒的人,并一定会经常买高档衣服,反之亦然),因此这两个属性,在已知“一个人是高收入”的条件下,可以认为是条件独立的。 +$P\left(\omega_{2} \mid X\right)=\frac{p\left(X \mid \omega_{2}\right) P\left(\omega_{2}\right)}{\sum_{i=1}^{2} p\left(X \mid \omega_{i}\right) P\left(\omega_{i}\right)}=\frac{0.2\times 0.9}{0.2\times 0.9+0.4\times 0.1}\approx 0.818$ + +$P\left(\omega_{1} \mid X\right)=\frac{p\left(X \mid \omega_{1}\right) P\left(\omega_{1}\right)}{\sum_{i=1}^{2} p\left(X \mid \omega_{i}\right) P\left(\omega_{i}\right)}=\frac{0.4\times 0.1}{0.2\times 0.9+0.4\times 0.1}\approx 0.182$ + +$\because P\left(\omega_{2} \mid X\right)>P\left(\omega_{1} \mid X\right) \qquad \therefore X\in \omega_2$ +解2: -3. **假设在某个地区的疾病普查中,异常细胞($\omega_1$)和正常细胞($\omega_2$)的先验概率分别为$P(\omega_1)=0.1$,$P(\omega_2)=0.9$。现有一待识别细胞,其观察值为$X$,从类概率密度分布曲线上查得$p(X|\omega_1)=0.4$,$p(X|\omega_2)=0.2$。试对该细胞利用最小错误率贝叶斯决策规则进行分类。** +$p(X\mid \omega_2)P(\omega_2)=0.2\times 0.9=0.18,\quad p(X\mid \omega_1)P(\omega_1)=0.4\times 0.1=0.04$ - 解1: +$\because p(X\mid \omega_2)P(\omega_2)>p(X\mid \omega_1)P(\omega_1)\quad \therefore X\in \omega_2$ +-$$ -P\left(\omega_{2} \mid X\right)=\frac{p\left(X \mid \omega_{2}\right) P\left(\omega_{2}\right)}{\sum_{i=1}^{2} p\left(X \mid \omega_{i}\right) P\left(\omega_{i}\right)}=\frac{0.2\times 0.9}{0.2\times 0.9+0.4\times 0.1}\approx 0.818\\ -P\left(\omega_{1} \mid X\right)=\frac{p\left(X \mid \omega_{1}\right) P\left(\omega_{1}\right)}{\sum_{i=1}^{2} p\left(X \mid \omega_{i}\right) P\left(\omega_{i}\right)}=\frac{0.4\times 0.1}{0.2\times 0.9+0.4\times 0.1}\approx 0.182\\ -\because P\left(\omega_{2} \mid X\right)>P\left(\omega_{1} \mid X\right) \qquad \therefore X\in \omega_2 -$$ +
+解1:当$X$被判为$\omega_1$类时: -4. **对前一题中两类细胞的分类问题(异常细胞$\omega_1$,正常细胞$\omega_2$),除已知的数据外,若损失函数的值分别为$L_{11}=0$,$L_{21}=6$,$L_{12}=1$,$L_{22}=0$,试用最小风险贝叶斯决策规则对细胞进行分类。** +$d_1(X)=L_{11}p(X\mid \omega_1)P(\omega_1)+L_{12}p(X\mid \omega_2)P(\omega_2)=0\times 0.4\times 0.1+1\times 0.2 \times 0.9=0.18$ - 解1:当$X$被判为$\omega_1$类时: - $$ - d_1(X)=L_{11}P(X\mid \omega_1)P(\omega_1)+L_{12}p(X\mid \omega_2)P(\omega_2)=0\times 0.4\times 0.1+1\times 0.2 \times 0.9=0.18 - $$ - 当*X*被判为$\omega_2$类时: - $$ - d_2(X)=L_{21}p(X\mid \omega_1)P(\omega_1)+L_{22}p(X\mid \omega_2)P(\omega_2)=6\times 0.4\times 0.1+0\times 0.2 \times 0.9=0.24 - $$ - $\because d_1(X)+ +\theta_{12}, \quad \therefore X\in \omega_1$ +$d_2(X)=L_{21}p(X\mid \omega_1)P(\omega_1)+L_{22}p(X\mid \omega_2)P(\omega_2)=6\times 0.4\times 0.1+0\times 0.2 \times 0.9=0.24$ - +$\because d_2(X)>d_1(X), \quad \therefore X\in \omega_1$ + +
+解2: + +$l_{12}(X)=\frac{p(X\mid \omega_1)}{p(X\mid \omega_2)}=\frac{0.4}{0.2}=2$ -5. **考虑下表中的数据集。** - -| **样本序号** | **A** | **B** | **C** | **类别** | -| ------------ | ----- | ----- | ----- | -------- | -| 1 | 0 | 0 | 1 | - | -| 2 | 1 | 0 | 1 | + | -| 3 | 0 | 1 | 0 | - | -| 4 | 1 | 0 | 0 | - | -| 5 | 1 | 0 | 1 | + | -| 6 | 0 | 0 | 1 | + | -| 7 | 1 | 1 | 0 | - | -| 8 | 0 | 0 | 0 | - | -| 9 | 0 | 1 | 0 | + | -| 10 | 1 | 1 | 1 | + | +$\theta_{12}=\frac{(L_{12}-L_{22})P(\omega_{2})}{(L_{21}-L_{11})P(\omega_{1})}=\frac{(1-0)\times 0.9}{(6-0)\times 0.1}=1.5$ +$\because l_{12}(X)>\theta_{12}, \quad \therefore X\in \omega_{1}$ +
+解答:(陈封能,第2版,第4章,习题8) - **(4)比较$P(A=1|+)$,$P(B=1|+)$和$P(A=1,B=1|+)$,给定类$+$,变量$A$、$B$独立吗?** +(1)根据数据集计算的: - 解答:(陈封能,第2版,第4章,习题8) +$P(A=1|+)=0.6, P(B=1|+)=0.4, P(C=1|+)=0.8, P(A=1|-)=0.4,P(B=1|-)=0.4,P(C=1|-)=0.2$ - (1)根据数据集计算的: -$$ -P(A=1|+)=0.6, P(B=1|+)=0.4, P(C=1|+)=0.8\\P(A=1|-)=0.4,P(B=1|-)=0.4,P(C=1|-)=0.2 -$$ - (2)记$R:(A=1,B=1,C=1)$为测试样本。为计算$P(+|R)$、$P(-|R)$,根据贝叶斯公式,需计算$P(+)$、$P(-)$、$P(R|+)$、$P(R|-)$。根据数据集可以计算:$P(+)=P(-)=0.5$,而 -$$ -P(R|+)=P(A=1|+)\times P(B=1|+)\times P(C=1|+) = 0.192 \\ -P(R|-)=P(A=1|-)\times P(B=1|-)\times P(C=1|-) = 0.032 -$$ - 于是有$P(+|R)>P(-|R)$,因此该测试样本应该判为类$+$。 - (3) -$$ -P(A=1)=0.5,P(B=1)=0.4,P(A=1,B=1)=0.2,\\ +(2)记$R:(A=1,B=1,C=1)$为测试样本。为计算$P(+|R)$、$P(-|R)$,根据贝叶斯公式,需计算$P(+)$、$P(-)$、$P(R|+)$、$P(R|-)$。 -P(A=1,B=1)=P(A=1)\times P(B=1) -$$ - 因此,可认为$A$、$B$是互相独立的。 +根据数据集可以计算$P(+)=P(-)=0.5$,而 - (4)根据数据集计算得: -$$ -P(A=1|+)=0.6, P(B=1|+)=0.4, P(A=1,B=1|+)=0.2 -$$ - 此时: -$$ -P(A=1,B=1|+)\neq P(A=1|+)\times P(B=1|+) -$$ - 因此可以认为,在给定了类别$+$的条件下,变量$A$和变量$B$并不统计独立。 +$P(R|+)=P(A=1|+)\times P(B=1|+)\times P(C=1|+) = 0.192$ + +$P(R|-)=P(A=1|-)\times P(B=1|-)\times P(C=1|-) = 0.032$ + +于是有$P(+|R)>P(-|R)$,因此该测试样本应该判为类$+$。 + + +(3)$P(A=1)=0.5,P(B=1)=0.4,P(A=1,B=1)=0.2,$ + +$P(A=1,B=1)=P(A=1)\times P(B=1)$ + +因此,可认为$A$、$B$是互相独立的。 + + +(4)根据数据集计算得:$P(A=1|+)=0.6, P(B=1|+)=0.4, P(A=1,B=1|+)=0.2$ + +此时$P(A=1,B=1|+)\neq P(A=1|+)\times P(B=1|+)$ +因此可以认为,在给定了类别$+$的条件下,变量$A$和变量$B$并不统计独立。 +diff --git "a/\350\257\276\345\220\216\344\275\234\344\270\232/\347\254\254\344\272\214\346\254\241\350\257\276\345\220\216\344\275\234\344\270\232.md" "b/\350\257\276\345\220\216\344\275\234\344\270\232/\347\254\254\344\272\214\346\254\241\350\257\276\345\220\216\344\275\234\344\270\232.md" index eb52f876bfee498bdd95e04f83eee0be82adbb71..5c86650399d887afba5e1d60ed87e9a2371b3ff2 100644 --- "a/\350\257\276\345\220\216\344\275\234\344\270\232/\347\254\254\344\272\214\346\254\241\350\257\276\345\220\216\344\275\234\344\270\232.md" +++ "b/\350\257\276\345\220\216\344\275\234\344\270\232/\347\254\254\344\272\214\346\254\241\350\257\276\345\220\216\344\275\234\344\270\232.md" @@ -1,66 +1,73 @@ # 第二次课后作业 - +
- +记$x_p$到超平面$b+x^{\top}\omega=0$的投影点为$x'_p$,两个平行超平面的法向量为$\omega$。 -2. **简要说明核函数在非线性支持向量机中的作用。** +先从几何方面看,矢量$(x_p-x'_p)$平行于法向量$\omega$,因此有 - 为了解决原始特征空间中的非线性可分问题,需要通过非线性特征变换,把原始特征映射到高维空间,使得在高维空间中近似线性可分。但是直接计算变换后的高维特征矢量的内积,计算量太大,因此通过核函数,可以巧妙地解决这个问题:核函数能通过低计算量求值操作,来近似代替高维矢量的内积。因此,通过核函数隐含的非线性特征变换,结合线性支持向量机算法,就能把原空间中非线性可分的数据进行很好的分类。 +$(x_p-x'_p)^{\top}\omega=||x_p-x'_p||||\omega||$ - +而点$x_p$到超平面$b+x^{\top}\omega=0$的代数间隔$d$实际上就是$||x_p-x'_p||$,因此有 -3. **试证:位于超平面$b+x^{\top}\omega=\beta$中的点$x_p$到超平面$b+x^{\top}\omega=0$的代数距离为$d=\frac{\beta}{||\omega||}$。** +$(x_p-x'_p)^{\top}\omega=d||\omega|| \cdots\cdots (1)$ - 记$x_p$到超平面$b+x^{\top}\omega=0$的投影点为$x'_p$,两个平行超平面的法向量为$\omega$。 +再从代数方面看,由于$x_p$和$x'_p$分别满足$b+(x_p)^{\top}\omega=\beta$和$b+(x'_p)^{\top}\omega=0$,两式相减 - 先从几何方面看,矢量$(x_p-x'_p)$平行于法向量$\omega$,因此有 - $$ - (x_p-x'_p)^{\top}\omega=||x_p-x'_p||||\omega|| - $$ - 而点$x_p$到超平面$b+x^{\top}\omega=0$的代数间隔$d$实际上就是$||x_p-x'_p||$,因此有 - $$ - (x_p-x'_p)^{\top}\omega=d||\omega|| \cdots\cdots (1) - $$ - 再从代数方面看,由于$x_p$和$x'_p$分别满足$b+(x_p)^{\top}\omega=\beta$和$b+(x'_p)^{\top}\omega=0$,两式相减: - $$ - (x_p-x'_p)^{\top}\omega=\beta \cdots\cdots (2) - $$ - 比较式(1)与式(2),有 - $$ - d=\frac{\beta}{||\omega||} - $$ - 证毕。 +$(x_p-x'_p)^{\top}\omega=\beta \cdots\cdots (2)$ +比较式(1)与式(2),有 +$d=\frac{\beta}{||\omega||}$ + +证毕。 ++ +