突破点8 回归分析、独立性检验
提炼1 变量的相关性 (1)正相关:在散点图中,点散布在从左下角到右上角的区域.
(2)
(3)相关系数r:当r>0r<01且|r|越接近于|r|≤1且|r|越接近于
^^^^提炼2 线性回归方程 方程y=bx+a称为线性回归方程,其中b=
--?xiyi-nxyn
2?x2i-nxni=1^-^---a=y-bx.(x,y)称为样本中心点.
i=1
提炼3 独立性检验 (1)确定分类变量,获取样本频数,得到列联表.
n?ad-bc?2
(2)求观测值:k=. ?a+b??c+d??a+c??b+d?
(3)根据临界值表,作出正确判断.如果k≥kα,就推断“X与Y有关系”,这种推断犯错误的概率不超过α,否则就认为在犯错误的概率不超过α的前提下不能推断“X与Y有关系”.
回访1 变量的相关性
1.(2015·全国卷Ⅱ)根据下面给出的2004年至2013年我国二氧化硫年排放量(单位:万吨)柱形图,以下结论中不正确的是(
)
1
图8-1
A.逐年比较,2008年减少二氧化硫排放量的效果最显著
B.2007年我国治理二氧化硫排放显现成效
C.2006年以来我国二氧化硫年排放量呈减少趋势
D.2006年以来我国二氧化硫年排放量与年份正相关
D 对于A选项,由图知从2007年到2008年二氧化硫排放量下降得最多,故A正确.对于B选项,由图知,由2006年到2007年矩形高度明显下降,因此B正确.对于C选项,由图知从2006年以后除2011年稍有上升外,其余年份都是逐年下降的,所以C正确.由图知2006年以来我国二氧化硫年排放量与年份负相关,故选D.]
2.(2012·全国卷)在一组样本数据(x1,y1),(x2,y2),?,(xn,yn)(n≥2,x1,x2,?,
1xn不全相等)的散点图中,若所有样本点(xi,yi)(i=1,2,?,n)都在直线y=2x+1上,
则这组样本数据的样本相关系数为( )
A.-1
1C.2 B.0 D.1
^D 样本点都在直线上时,其数据的估计值与真实值是相等的,即yi=yi,代入
^? ?yi-yi?2n
ni=1相关系数公式r=1-1.]
i=1? ?yi-y?2
3.(2015·全国卷Ⅰ)某公司为确定下一年度投入某种产品的宣传费,需了解年
宣传费x(单位:千元)对年销售量y(单位:t)和年利润z(单位:千元)的影响.对近8年的年宣传费xi和年销售量yi(i=1,2,?,8)数据作了初步处理,得到下面的散点图及一些统计量的值.
图8-2
2
1
表中wixi,w]=8∑i= 1wi.
(1)根据散点图判断,y=a+bx与y=c+dx哪一个适宜作为年销售量y关于年宣传费x的回归方程类型?(给出判断即可,不必说明理由)
(2)根据(1)的判断结果及表中数据,建立y关于x的回归方程;
(3)已知这种产品的年利润z与x,y的关系为z=0.2y-x.根据(2)的结果回答下列问题:
①年宣传费x=49时,年销售量及年利润的预报值是多少? ②年宣传费x为何值时,年利润的预报值最大?
附:对于一组数据(u1,v1),(u2,v2),?,(un,vn),其回归直线v=α+βu的
n
1 ?ui-u??vi-v?^^∑i=^斜率和截距的最小二乘估计分别为β=α=v-βu. ∑i= 1 ?ui-u?2
解] (1)由散点图可以判断,y=c+dx适宜作为年销售量y关于年宣传费x的回归方程类型.2分
(2)令w=x,先建立y关于w的线性回归方程.
^i=1
由于d=
? ?wi-w??yi-y?
? ?wi-w?2
8
8
108.8
1.668,
i=1
^^
c=y-d w=563-68×6.8=100.6,4分 ^
所以y关于w的线性回归方程为y=100.6+68w, ^
因此y关于x的回归方程为y=100.6+68x.6分 (3)①由(2)知,当x=49时,
^
年销售量y的预报值y=100.6+49=576.6,
3
^
年利润z的预报值z=576.6×0.2-49=66.32.8分 ②根据(2)的结果知,年利润z的预报值
^
z=0.2(100.6+68x)-x=-x+13.6x+20.12.10分 ^13.6
所以当x=26.8,即x=46.24时,z取得最大值. 故年宣传费为46.24千元时,年利润的预报值最大.12分 回访2 独立性检验
4.(2012·辽宁高考)电视传媒公司为了解某地区电视观众对某类体育节目的收视情况,随机抽取了100名观众进行调查.下面是根据调查结果绘制的观众日均收看该体育节目时间的频率分布直方图:
图8-3
将日均收看该体育节目时间不低于40分钟的观众称为“体育迷”. 根据已知条件完成下面的2×2列联表,并据此资料你是否认为“体育迷”与性别有关?
解] ”有25人,从而2×2列联表如下:
4分
将2×2列联表中的数据代入公式计算,得
4
n?n11n22-n12n21?2100×?30×10-45×15?2100k333.030.因为3.030<3.841,n1+n2+n+1n+275×25×45×55所以没有理由认为“体育迷”与性别有关.10分
5
热点题型1 回归分析
题型分析:高考命题常以实际生活为背景,重在考查回归分析中散点图的作用、回归方程的求法和应用,难度中等.
在一次抽样调查中测得样本的5组数据,得到一个变量y关于x的回归
方程模型,其对应的数值如下表:
(1)试作出散点图,根据散点图判断,y=a+bx与y=xm哪一个适宜作为变量y关于x的回归方程模型?(给出判断即可,不必说明理由)
(2)根据(1)的判断结果及表中数据,建立变量y关于x的回归方程;
(3)根据(2)中所求的变量y关于x的回归方程预测:当x=3时,对应的y值为多少?(保留四位有效数字)
解] (1)作出变量y与x之间的散点图,如图所示,
2分
由图可知变量y与x近似地呈反比例函数关系,
k
那么y=xm适宜作为变量y关于x的回归方程模型.4分
k1
(2)由(1)知y=xm适宜作为变量y关于x的回归方程模型,令t=xy=kt+m,由y与x的数据表可得y与t的数据表如下:
作出y与t的散点图,如图所示.
6
8分
由图可知y与t近似地呈线性相关关系.
--55又t=1.55,y=7.2,?tiyi=94.25,?t2i=21.312 5,
i=1i=1
i=1--?tiyi-5ty5
2?t2i-5t5所以k=--94.25-5×1.55×7.2=4.134 4,m=y-kt=7.2-21.312 5-5×1.55i=1
4.134 4×1.55≈0.8,
所以y=4.134 4t+0.8,
所以y关于x的回归方程为y=4.134 4x0.8.10分
4.134 4x0.8, (3)由(2)得y关于x的回归方程是y=
当x=3时,可得y=
4.134 430.8≈2.178.12分
^^1.正确理解计算b,a的公式和准确的计算,是求线性回归方程的关键.其中
--
线性回归方程必过样本中心点(x,y).
2.在分析两个变量的相关关系时,可根据样本数据作出散点图来确定两个变量之间是否具有相关关系,若具有线性相关关系,则可通过线性回归方程估计和预测变量的值.
变式训练1] (2016·石家庄二模)为了解某地区某种农产品的年产量x(单位:吨)对价格y(单位:千元/吨)和年利润z的影响,对近五年该农产品的年产量和价格统计如下表:
(1)求y关于x的线性回归方程y=bx+a;
7
(2)若每吨该农产品的成本为2千元,假设该农产品可全部卖出,预测当年产量为多少时,年利润z取到最大值?(保留两位小数)
--
? ?xi-x??yi-y?
n
^i=1
参考公式:b=
i=1
--
?xiyi-nxy
n
i=1
-
? ?xi-x?2
n
i=1
?xi2-nx2
n
^-^-a=y-bx.
--
解] (1)x=3,y=5,2分
i=1
?xi=15,?yi=25,?xiyi=62.7,?x2i=55,
i=1
i=1
i=1
5555
^^
解得b=-1.23,a=8.69,4分 ^
所以y=8.69-1.23x.6分
(2)年利润z=x(8.69-1.23x)-2x=-1.23x2+6.69x,10分
所以当x=2.72,即年产量为2.72吨时,年利润z取得最大值.12分
热点题型2 独立性检验
题型分析:尽管全国卷Ⅰ在近几年未在该点命题,但其极易与分层抽样、古典概型等知识交汇,是潜在的命题点之一,须引起足够的重视.
(2016·河南省名校期中)微信是腾讯公司推出的一种手机通讯软件,它支
持发送语音短信、视频、图片和文字,一经推出便风靡全国,甚至涌现出一批在微信的朋友圈内销售商品的人(被称为微商).为了调查每天微信用户使用微信的时间,某经销化妆品的微商在一广场随机采访男性、女性用户各50名,其中每天玩微信超过6小时的用户列为“微信控”,否则称其为“非微信控”,调查结果如下:
(1) (2)现从调查的女性用户中按分层抽样的方法选出5人赠送营养面膜1份,求所抽取5人中“微信控”和“非微信控”的人数;
(3)从(2)中抽取的5人中再随机抽取2人赠送200元的护肤品套装,求这2人中至少有1人为“非微信控”的概率.
8
n?ad-bc?2
参考公式:K=,其中n=a+b+c+d. ?a+b??c+d??a+c??b+d?2
参考数据:
解题指导] 计算k――→下结论――→求“微信控”及“非微信控”人数古典概型
――→求得概率.
n?ad-bc?2100×?26×20-30×24?2
解] (1)由列联表可得k=?a+b??c+d??a+c??b+d?56×44×50×50≈0.649 35<0.708,2分
所以没有60%的把握认为“微信控”与“性别”有关.3分
(2)依题意可知,所抽取的5位女性中,
3020“微信控”有5×503(人),“非微信控”有5×50=2(人).5分
(3)记5人中的“微信控”为a,b,c,“非微信控”为D,E,
则所有可能的基本事件为(a,b),(a,c),(a,D),(a,E),(b,c),(b,D),
(b,E),(c,D),(c,E),(D,E),共10种,8分
其中至少有1人为“非微信控”的基本事件有(a,D),(a,E),(b,D),(b,E),(c,D),(c,E),(D,E),共7种,10分
7所以这2人中至少有1人为“非微信控”的概率为10.12分
求解独立性检验问题时要注意:一是2×2列联表中的数据与公式中各个字母的对应,不能混淆;二是注意计算得到k之后的结论.
变式训练2] 某高校共有学生15 000人,其中男生10 500人,女生4 500人.为调查该校学生每周平均体育运动时间的情况,采用分层抽样的方法,收集300位学生每周平均体育运动时间的样本数据(单位:小时).
(1)应收集多少位女生的样本数据?
(2)根据这300个样本数据,得到学生每周平均体育运动时间的频率分布直方图(如图所示),其中样本数据的分组区间为:0,2],(2,4],(4,6],(6,8],(8,10],(10,12].估计该校学生每周平均体育运动时间超过4小时的概率;
9
(3)在样本数据中,有60位女生的每周平均体育运动时间超过4小时,请完成每周平均体育运动时间与性别列联表,并判断是否有95%的把握认为“该校学生的每周平均体育运动时间与性别有关”.
n?ad-bc?2
附:K=,
?a+b??c+d??a+c??b+d?
2
4 500
解] (1)300×15 00090,所以应收集90位女生的样本数据.2分
(2)由频率分布直方图得1-2×(0.100+0.025)=0.75,所以该校学生每周平均体育运动时间超过4小时的概率的估计值为0.75.5分
(3)由(2)知,300位学生中有300×0.75=225人的每周平均体育运动时间超过4小时,75人的每周平均体育运动时间不超过4小时.又因为样本数据中有210份是关于男生的,90份是关于女生的,所以每周平均体育运动时间与性别列联表如下:
每周平均体育运动时间与性别列联表:
300×?45×60-30×165?2100结合列联表可算得k=214.762>3.841.10分
75×225×210×90所以有95%的把握认为“该校学生的每周平均体育运动时间与性别有关”.12分
10
www.99jianzhu.com/包含内容:建筑图纸、PDF/word/ppt 流程,表格,案例,最新,免费下载,施工方案、工程书籍、建筑论文、合同表格、标准规范、CAD图纸等内容。