农业资讯网
当前位置: 首页 农业百科

机器学习残差计算(机器学习降维方法)

时间:2023-05-23 作者: 小编 阅读量: 1 栏目名: 农业百科

主成分分析对数据做正交变换,具体地,对原坐标系进行旋转变换,将数据在新的坐标系中表示。对n个观测数据样本进行规范化处理,得到规范化数据矩阵,表示为X。因此,计算累计方差贡献率,再决定k的大小。

主成分分析(principal component analysis,PCA)是机器学习里常用的无监督学习方法。这个方法利用正交变换,将由线性相关变量表示的观测数据转换为由少数几个线性无关变量表示的数据,线性无关的变量称为主成分。主成分的个数通常少于原始变量的个数,所以主成分分析属于降维方法。

主成分分析这一方法主要用来分析数据的基本结构,即数据中变量之间的关系,是数据分析的有力工具,也可以用于其他机器学习方法的预处理,它是多元统计分析中的经典方法。

为什么要求变量之间线性无关?

如果数据之中的某些维度之间存在较强的线性相关关系,那么样本在这些维度上提供的信息有就会一定地重复,所以希望数据各个维度之间是不相关的 (也就是正交的)。

直观解释

如图,考虑二维情形,假如x_1和x_2是两个数据变量,图中每个点表示一个样本点,可以看出,这些数据分布在一个以原点为中心的椭圆中,很明显这两个变量是线性相关的,因为固定了一个变量后,另外一个变量的取值不是随机的。

主成分分析对数据做正交变换,具体地,对原坐标系进行旋转变换,将数据在新的坐标系中表示。新的变量是y_1和y_2。可以看出,新的坐标系中,椭圆的长短轴分别对应两个新的坐标轴。为什么这样做呢?因为主成分分析选择方差最大的方向作为第一主成分,也就是长轴对应的方向;其次选择方差第二大,且与第一主成分线性无关的方向,即正交的方向,作为第二主成分,即短轴。

在新的坐标系里,数据中的变量是线性无关的。

样本主成分分析

求解主成分分析的思路就是求得原变量的一系列线性变换,使得新变量y_1(第一主成分)的方差最大,y_2(第二主成分)的方差是和y_1不相关的原变量的所有线性变换中方差最大的,然后在和y_1、y_2线性无关的条件下,分别求y_3,y_4...。

我们下面简单介绍对样本的主成分分析算法。

  1. 对n个观测数据样本进行规范化处理,得到规范化数据矩阵,表示为X。
  2. 根据规范化数据矩阵,计算样本的相关矩阵R = 1/(n-1)*X*X^T
  3. 求样本相关矩阵R的n个特征值lambda_1,lambda_2,···lambda_n和对应的n个单位特征向量a_1,a_2,···a_n,每个特征值除以所有特征值的和就是这个主成分对应的方差贡献率。我们要选取多少个主成分呢? 假如选取前k个, 一般要求k个主成分的累计方差贡献率(即方差贡献率之和)在70%到80%,这就说明这些主成分保留原数据的信息量在70%到80%。因此,计算累计方差贡献率,再决定k的大小。
  4. 求解k个样本主成分。y_i = a_i^T*x;
数据分析

得到k个主成分后,就可以对主成分进行分析,可以通过计算主成分和原变量的相关系数(称为因子负荷量),来分析哪个原变量和主成分的相关性最高。比如在考试成绩的数据中,每个科目都是原变量,求得第一主成分后,假如物理和第一主成分的因子负荷量最高,说明物理对第一主成分影响最大。怎么分析要结合具体的计算结果和具体的例子。

扩展

可以通过核方法隐式地在高维空间中进行主成分分析,相关的方法是核主成分分析。

参考资料:《统计学习方法(第二版)》,李航,清华大学出版社;

欢迎大家在评论区讨论,如有错误,欢迎指正,多谢。

喜欢的可以关注一波小编哇,一起讨论,一起学习进步!您的支持,是小编创作的动力!

    推荐阅读
  • 我国的儿童感觉统合失调率为多少(儿童感觉统合失调的危害)

    大脑将这些讯息整合,作出反应再透过神经组织,指挥身体感官的动作,称为运动学习。平衡感是人类行动的基础平衡能力主要来自骨架和中枢神经的功能,并在中耳的半规管组成辨识神经体系,以协调身体和地心引力的能力。最重要是找出其根本的原因,由于孩子行为上大多已产生多重困难,不易判断真正原因及其不足程度。

  • 碱性水果有什么(碱性水果多吗)

    接下来我们就一起去了解一下吧!碱性水果有什么绝大多数水果都是偏碱性的,像香蕉,苹果,梨,葡萄,山楂,橘子,桃子。另外从中医角度这些水果又有不同的凉热属性,与中医上各人进行评估不同的属性相对应。但西医认为只要没有明显的胃肠道刺激情况这些水果都是可以选择。

  • 进出鹿泉区防疫政策(鹿泉区疫情防控要求)

    二、抵鹿后、早检测为及早筛查发现潜在疫情风险,请义乌、三亚等省外涉疫地区来鹿返鹿人员和7月30日以来有新乐市旅居史来鹿返鹿人员抵鹿后前3天每天进行免费核酸检测,并在第5天、第7天各进行一次免费核酸检测;倡导省外非涉疫地区来鹿返鹿人员抵鹿后前3天每天进行免费核酸检测,并提倡第5天再进行一次免费核酸检测,期间不参加聚集性活动,不前往人员密集场所,不乘坐公共交通工具,避免交叉感染风险。

  • 成年的猫咪能吃化毛膏吗(猫咪多大可以吃化毛膏)

    猫咪化毛膏一般是需要在猫咪开始学会舔毛的时候开始吃,通常是在三个月左右,它们会自己整理自己的毛发,从中舔入不少的猫毛,这就是毛球形成的主要因素。

  • 广东黑凉粉怎么做好吃(黑凉粉简单做法)

    下面更多详细答案一起来看看吧!广东黑凉粉怎么做好吃材料:准备好1盒凉粉粉,100克,水2300毫升,约正常碗9碗水。先取2碗冷水把凉粉粉开成无核的糊状,再用剩余的7碗冷水煮沸。把刚刚搅拌的糊状凉粉浆,慢慢到如煮沸的锅中,并不停的搅匀,直到煮沸。关火,充分冷凝后成固体,用木刀切成大四方快,放入冰箱冷藏。想吃的时候,取出,用木刀切入小方块,根据自己的口味加入蜂蜜或冰糖或蔗糖水,还可以加入自己喜欢吃的水果。

  • 月季花的特点,附外形介绍 月季花的样子和特点是什么

    顶部生长的小叶柄较长,侧面生长的小叶柄较短。北方花期是4-10月,南方花期是3-11月。

  • 齐白石画荷花图大全(齐白石画红荷卖690万)

    这幅《五色荷花》创作于1935年,在2017年以3220万的天价成交,足足比齐白石的《荷花蜻蜓》高出了近5倍。2,虽然同是写意荷花,齐白石的荷花重意趣,对形态的描写没有过多刻画,而张大千的荷花,除了荷叶之外,几乎每一朵荷花都刻画得更加细腻、美观一些。

  • 课后服务是什么意思(课后服务的解释)

    课后服务的解释课后服务属于学校教育的延伸,是为了解决放学早下班晚“时间差”问题而衍生的一种服务,以贝尔安亲为首的课后服务机构正迅速崛起,这种机构提供的学生托管、作业辅导、文体活动、娱乐游戏、兴趣培养、社会实践等服务。

  • 树藤怎么炒好吃(怎么炒树藤)

    我们一起去了解并探讨一下这个问题吧!树藤怎么炒好吃藤藤菜300g,蚝油1勺,干辣椒3个,蒜2瓣,食盐3g,植物油30g,将藤藤菜用水浸泡30分钟,然后择叶,洗净,沥干。将蒜去衣,切蒂,切成蒜片,干辣椒切成细丝。放入蒜片、辣椒丝爆香。快炒至熟,下适量食盐和蚝油调味,即可关火上碟。

  • 二手三门版普拉多转让(司法拍卖不容错过)

    司法拍卖不容错过江津法院司法拍卖拍品上新啦!1.登录淘宝网司法拍卖网络平台http://sf.taobao.com2.扫码拍品下的二维码即可进入拍卖界面还在等什么呢?本周有什么新拍品,赶紧来看看吧!1拍卖标的:重庆市。