本文转载自微信公众号「晓阳的数据小站」,作者晓阳的数据小站。转载本文请联系晓阳的数据小站公众号。
10年积累的网站制作、成都网站建设经验,可以快速应对客户对网站的新想法和需求。提供各种问题对应的解决方案。让选择我们的客户得到更好、更有力的网络服务。我虽然不认识你,你也不认识我。但先网站策划后付款的网站建设流程,更有错那免费网站建设让你可以放心的选择与我们合作。
这三个主题,都是当下热门的概念,梳理清楚其关系,有助于在后续的学习中,有的放矢。如果只看结论,可以直接到最后一个章节。
统计学是通过搜索、整理、分析、描述数据等手段,以达到推断所测对象的本质,甚至预测对象未来的一门综合性科学。
为什么要讲“统计学”?很简单,统计分析为现代科学奠定了方法论基础,即实证研究。统计推断有个基础,研究的对象是服从某一规律法则的随机过程,而现实观测到的数据是从这个随机过程产生的,这个随机过程我们称之为数据生成过程。统计学基于观测到的数据进行建模,推断出概率法则,便可以应用于实际场景中,如检验经济学假说、评估公共政策效果等。
在统计建模中,一般假设的DGP(数据生成过程,Data Generating Process)的概率法则可以由唯一的数学概率模型来刻画,模型通常将因变量与一些解释变量或预测变量联系起来,同时假设该数学模型的函数形式已知,但包含低维的未知参数,这是一种参数建模方法,在统计学中应用最为广泛。
统计推断主要目的是观测数据、估计模型的未知参数值,将经济理论或者假说转化为统计参数假设,然后进行参数假设检验,并对实证结果提供经济解释。常见的做法,是基于一个预设的显著性水平(如5%)判断一个参数估计值或者参数假设在统计学上是否显著。如果具有统计显著性,则相应的将变量视为一个重要决定因素。
互联网行业中,常见的A/B测试,也是为了验证某个idea是否具备统计显著性。
但以上的做法至少需要六个关键假设:
如果以上概念非常不好理解,那么就简单记住下面几句:
通常意义上,我们可以认为大数据是继信息革命后的第四次革命,尤其是互联网与移动互联网的普及、物联网的兴起,数据的增长是指数级别的。大数据最显著的特征,是其“4V”特性,即:
尽管我们能够熟练背诵大数据的4V原理,但其背后的深刻概念与技术挑战,却是一直被忽视的。从统计学的角度看,大数据的4V特征会有一些新的解读。
与统计学一样,机器学习也是一种重要的大数据分析工具,尽管机器学习由于云计算的出现得到了迅速的发展和普及,但机器学习并不能替代统计学。例如,尽管机器学习在改善样本外预测和模式识别方面非常有用,但统计学在推断分析、因果分析、结果解释等方面依然可以发挥很大的作用。可以说,机器学习与统计学是互补的,两者的交叉融合可以为数据科学提供新的方法与工具。
机器学习可以分为三个主要的类别:监督学习、无监督学习和强化学习。
监督学习基于训练好的数据来构建算法,训练数据包含一组训练样例,每个训练样例拥有一个或多个输入与输出,成为监督信号,通过对目标函数的迭代优化,监督学习算法探索出一个函数,可用于预测新输入所对应的输出。
无监督学习只在包含输入的训练数据中寻找结构,识别训练数据的共性特征,并基于每个新数据所呈现或缺失的这种共性特征做出判断。
强化学习是研究算法如何在动态环境中执行任务,以实现累计奖励的最大化。很多学科对这个领域有研究,比如博弈论、控制论等,在自动驾驶、人类博弈比赛等方面比较常用。
因此,从本质上说,机器学习是数据优化问题与算法优化问题,数学优化为该领域提供了理论、方法与应用。
主要有四点。
第一,大数据的出现,其实并没有改变统计学通过随机抽样来推断总体分布特征的基本思想,需要统计学的基本方法,如充分性原则、因果推断等,依然适用于大数据分析。此外,大数据提供了很多传统数据所没有的信息,大大拓展了统计学研究的边界,如非结构化数据的影响,而实时数据甚至为实时预测和高频统计建模带来可能。
第二,由于样本容量的巨大,大数据很有可能改变基于统计显著性来选择统计模型重要变量的习惯做法,研究范式就会从参数估计的不确定性转为模型选择的不确定性,这对统计建模与推断会带来新的挑战。
第三,机器学习的兴起得益于大数据的爆炸式发展,与统计学类似,机器学习也存在并且特别注重样本偏差的问题。机器学习的本质是一个数据优化问题及实现该优化问题的计算机算法问题,它比统计学的参数建模更普遍和更灵活。
第四,在大数据的加持下,机器学习与统计推断的结合,有望为数据科学提供一些新的发展方向,包括变量降维、精准预测、因果识别等方面。
当前文章:大数据、统计学与机器学习是怎样的关系
当前URL:http://www.shufengxianlan.com/qtweb/news23/223523.html
网站建设、网络推广公司-创新互联,是专注品牌与效果的网站制作,网络营销seo公司;服务项目有等
声明:本网站发布的内容(图片、视频和文字)以用户投稿、用户转载内容为主,如果涉及侵权请尽快告知,我们将会在第一时间删除。文章观点不代表本网站立场,如需处理请联系客服。电话:028-86922220;邮箱:631063699@qq.com。内容未经允许不得转载,或转载时需注明来源: 创新互联