1. MATLAB多组数据如何进行拟合
要兼顾三组数据,在试验条件不变的情况下,可对三组数据取平均值后再拟合。
如:a1=[x1,y1];a2=[x2,y2];a3=[x3,y3];假设x1,x2,x3,y1,y2,y3是列向量且元素个数相等,
x=mean([x1,x2,x3],2);
y=mean([y1,y2,y3],2);
a=[x,y];
再对x,y进行拟合就可对三组数据都兼顾到了。
2. 分析两组X、Y坐标数据的指标有什么
比值关系(基本关系,比如有一个东西,两块钱三个,三块钱五个,x,Y都不同,但是你知道他们有一个比值在,这就能说出哪个贵,哪个便宜,哪个更合适)
增长关系或降低关系(同上,但是稍有区别,比如年龄在长,这是x轴,但是都需要买东西,每个年龄的需求不同,这就是y轴,但是趋势是可以推理出来的,这就是所谓的针对性营销,只是两组数据太少了)
曲线关系(如果只有两组数的话,当我没说)
直线关系(两点成直线,那么这条直线经过的点,会怎么样?)
就统计学而言两组数据太少,其他的关系很多都没办法用在这里,临时只能想到这么多。
3. 有两组数据 每组数据有三个指标,如何做两组数据的协整检验
你意思三组数据里面分别还有三组数据?没理解。。
要做协整,几组数据都行,只要都是都是n阶向量,之间就可以协整,只要符合现实意义
4. 数据采集与分析的指标有哪些
讲解几个数据分析的常用指标
增长研究社
08-04 · 优质科技领域创作者
评价指标是评判数据表现的衡量标准,它是数据分析中非常重要的部分,也是产品经理必须掌握的重点内容。不同的数分任务采用不同的评价指标,对于同一种任务在不同场景下也会采用不同的评价指标。
例如在检测垃圾邮件这个场景中,这是一个典型的二分类问题,所以可以用精确率和AUC曲线这两个指标判断模型的效果;在人脸识别场景中,使用误识率、拒识率和ROC曲线这三个指标评判模型的效果。
不同指标的着重点不一样,一个指标在不同场景下适用性可能不一样,产品经理需要学习不同指标的特性,在项目中根据实际需要选择不同的评价指标。下文中我们重点讲解一些产品经理常用的评价指标。
01 混淆矩阵
混淆矩阵(Confusion Matrix)是评价模型精度的一种标准格式,用一个N行N列的矩阵形式来表示。矩阵每一列代表预测值,每一行代表实际值。
从混淆矩阵的名字不难看出来,它的作用是表明多个类别之间是否有混淆,也就是模型到底判断对了多少个结果,有多少个结果判断错了。同时混淆矩阵能够帮助我们理解准确率、精确率和召回率的区别。
面对一个二分类问题时,通常我们会将结果表示为正类与负类,两者可以随意指定。在上述区分猫狗图片的例子中,我们假定猫为正类、狗为负类。那么在实际进行预测的时候就会出现四种情况,如下图所示:
混淆矩阵
如果这张图片是猫,机器预测出来的结果也是猫,这种情况称为真正类(True Positive,以下简称TP);
如果这张图片是狗,机器预测出来的结果也是狗,这种情况称为真负类(True Negative,以下简称TN);
如果这张图片是猫,机器预测出来的结果是狗,这种情况称为假负类(False Negative,以下简称FN);
如果这张图片是狗,机器预测的结果是猫,则为假正类(False Positive,以下简称FP)。
02 准确率
准确率(Accuracy)是指预测正确的样本占总样本的比例,即模型找到的真正类与真负类与整体预测样本的比例。用公式表示为:
Accuracy=(TP+TN)/(TP+TN+FP+FN)
准确率的取值范围为[0,1],一般情况下取值越大,代表模型预测能力越好。
假设上述猫狗图片分类的例子中,猫狗图片各有500张。最后模型预测的结果中真正类有318个,真负类有415个,假正类有75个,假负类有182个。根据准确率的定义可以算出来目前模型的准确率为:(318+415)/(1000)=0.73。
准确率是评价模型效果最通用的指标之一,描述模型找到“真”类别的能力。也就是说模型准确识别出猫和狗的概率为0.73。但是在使用的时候有两点需要我们注意。首先是准确率没有针对不同类别进行区分,最后求得的准确率对每个类别而言是平等对待的,这种评价方式在很多场景下是有欠缺的。
在本例中,虽然可以看到模型的整体准确率是73.30%,但是从结果中明显可以看出来,模型对于猫的识别效果远不如对狗的识别效果。如果我们模型的目的是为了把猫的图片挑出来,那么这个准确率就有些虚高。
在实际的病患诊断中,计算机诊断出某患者患有癌症,实际上却未患癌症与计算机诊断出某患者未患有癌症,而实际上却患有癌症这两种情况的重要性不一样,不能一概而论。我们需要明确后续是降低误诊率还是提高确诊率,才能让后续模型优化更有针对性。
另外在正负样本极不平衡的情况下,准确率这个指标存在很大的缺陷。例如在银行的全量客户中,要寻找适合推荐信托产品的超高净值客户是非常难的。因为这部分人群要求存款较多、收入较高,比较稀少,往往只有万分之一的概率。
如果一个预测客户适不适合信托产品的模型用准确率去评判,哪怕模型把全部客户预测成负类,即全部都是不适合的情况,那么这个模型的精度也有 99% 以上。
但这个指标就失去了原有的意义,因为无法找到任何高净值的人群。所以我们一再强调,没有万能的指标,根据场景选择合适的指标非常重要。
03 精确率与召回率
精确率(Precision)和召回率(Recall)是一对好兄弟,虽然是两个不同的评价指标,但它们互相影响,通常一起出现。在很多书上又把精确率称为查准率,把召回率称为查全率。
召回率是针对原始样本而言的指标,它表示原始样本中的正例有多少被预测正确。
原始样本中的正例有两种情况,一种是把原来的正类预测成正类(TP),另一种就是把原来的正类预测为负类(FN),这两种情况组成了原始样本所有的正例。计算公式为:
Recall=TP/(TP+FN)
上述模型中识别猫类图片的召回率为:
318/(318+182)=0.63
从这个角度可以看出来总共500张猫的图片,模型只找对了318张,相比准确率而言,召回率更真实地反应了模型的效果。
而精确率是针对预测结果而言的指标,它表示预测为正类的样本中有多少是对的。预测结果为正例有两种情况,一种就是把正类预测为正类(TP),另一种就是把负类预测为正类(FP)。所以精确率的计算公式为:
Precision=TP/(TP+FP)
即上述模型中识别猫类图片的精确率为:
318/(318+75)=0.81
从这个指标可以看出来模型总共把393张图片预测为猫,其中只有318张图片预测正确。所以模型可能存在欠拟合的情况,将部分狗的照片判断成猫,判断为正类的条件太宽松。下一步优化的时候可以选择适当降低条件以此提高模型效果。如下图所示可以看出精确率与召回率的区别:
精确率与召回率
在理想情况下,我们希望精确率和召回率两者都越高越好。
然而事实上这两者在很多情况下是互相矛盾的。当召回率变高时意味着需要尽可能找到原始样本的正例,因此模型覆盖的数量会变多,模型就更高的几率犯错,将原本不属于该分类的样本也加进来,这就导致精确率下降。
如果我们希望模型尽可能多得找出猫的图片,我们会想办法提高召回率;如果我们希望模型找到的图片少一点但找出来的都是猫的图片,我们会想办法提高精确率。
有两个很典型的场景可以说明这两个指标实际运用的区别,一个是对于地震的预测,我们希望尽可能预测到所有的地震,哪怕这些预测到的地震中只有少数真正发生了地震,在这个时候我们就可以牺牲精确率。
宁愿发出100次警报,但是把10次真实的地震都预测对了,也不希望预测了10次但是只有8次真实的地震被预测出来了,因为只要有1次地震没被发现都会造成巨大的损失。因此这是一个“宁可抓错,不可放过”的场景。
还有一种是垃圾邮件分类的场景,我们希望模型能够尽可能找到所有垃圾邮件,但是我们更不希望把自己正常的邮件被分到垃圾邮件中,哪怕是一封正常的邮件,这会对用户造成很严重的后果。对于少数没有被识别出来的垃圾邮件,其实用户是可以容忍的。
这时候我们宁可少分类成垃圾邮件,但必须确保分的都是对的,这就是一个“宁可放过,不可抓错”的场景。因此在不同的场合中,需要产品经理根据实际情况,自己判断希望是精确率比较高或是召回率比较高。
另外精确率和准确率是比较容易混淆的两个评估指标,两者的核心区别在于:精确率是一个二分类指标,只适用于二分类任务,而准确率能应用于多分类任务。
04 ROC曲线
在逻辑回归的分类模型里,对于正负例的界定,通常会设一个阈值。大于阈值的样本判定为正类,小于阈值的样本为负类。如果我们减小这个阈值,会让更多的样本被识别为正类,从而提高了正类的识别率,但同时也会使得更多的负类被错误识别为正类。
直接调整阈值可以提升或降低模型的精确率和召回率,也就是说使用精确率和召回率这对指标进行评价时会使得模型多了“阈值”这样一个超参数,并且这个超参数会直接影响模型的泛化能力。在数学上正好存在ROC曲线能够帮助我们形象化地展示这个变化过程。
ROC曲线是一个画在二维平面上的曲线,平面的横坐标是假正类率(FalsePositive Rate,简称FPR),计算公式为:
FPR=FP/(FP+TN)
纵坐标是真正类率(True Positive Rate,简称TPR),计算公式为:
TPR=TP/(TP+FN)
对于一个分类器而言,每一个阈值下都会有一个FPR和TPR,这个分类器就可以映射成ROC平面上的一个点。当我们调整这个分类器分类时使用的阈值,就可以得到一个经过(0,0),(1, 1)的曲线,这条曲线就是这个分类器的ROC曲线,如下图所示。
ROC曲线
从图中可以看到,所有算法的ROC曲线都在y=x这条线的上方,因为y=x表示了随机的猜测的概率。所有二分类问题随便猜正确或不正确都是50%的准确率。
一般情况下不存在比随机猜测的准确率更糟糕的算法,因为我们总是可以将错误率转换为正确率。如果一个分类器的准确率是40%,那么将两类的标签互换,准确率就变为了60%。
从图中可以看出来,最理想的分类器是到达(0,1)点的折线,代表模型的准确率达到100%,但是这种情况在现实中是不存在的。如果我们说一个分类器A比分类器B好,实际上我们指的是A的ROC曲线能够完全覆盖B的ROC曲线。如果有交点,只能说明A在某个场合优于B,如下图所示。
分类器A与分类器B的ROC曲线
ROC曲线通常搭配着它对应的比率图一起使用,我们继续用猫狗图片分类的例子说明这两个图怎么看。原本我们猫狗的图片各有500张,如所示图形的X轴代表预测的概率值,Y轴代表观察的数量。
假设我们用一个新的分类器对图片进行分类,分类结果用黑色线代表狗图片的分布,用灰色代表猫图片的分布。模型给出的分值越高代表模型判断这张图片是猫的把握越大,反之模型的给出的分值越低代表模型判断这张图片不是猫的把握越大,也就是说这张图片更有可能是狗。
从下图中可以看出来这个分类器的分类效果还是挺好的,基本上基本把两个物群的分布分开,ROC曲线也非常靠近(0,1)这个点。
某分类器下的ROC曲线
如上图所示,如果将阈值设为0.3,左边划线部分的面积代表模型判断为狗的图片数量有300张左右,并且从图中可以看出来这300张图片全部分类正确。
如果将阈值设为0.5,则左边划线部分的面积代表模型判断为狗的图片有530张左右,从图中重叠部分可以看出来大约有40个分类结果是包含错误分类的,这些错误分类包括实际是狗的图片被分成猫的情况以及实际是猫的图片被分类成狗的情况。
0.3阈值与0.5阈值下的分类结果
这时候我们用另外一个分类器再进行分类,结果如图3-16所示。可以看到整个分类结果向右偏移,同时模型的效果变差,因为两个分类结果重叠的部分变大,无论我们把阈值设在哪里都会比上一个分类器产生更多的错误分类。
假如这时我们采用“宁可抓错,不可放过”的原则把阈值设置为0.8,则右边划线部分只有200个左右不会被分类为狗的图片,其余800个结果全部会被判定为狗的图片,尽管这里面有350个分类结果是错误的结果。
新的分类器下的ROC曲线
从上述例子中看出来,ROC曲线可以帮助我们从图像的角度分辨两个分类结果的分布情况以及选择模型合适的阈值。因此也是很多产品经理比较喜爱的指标之一。
这时很多读者可能会有疑问,既然已经有那么多评价标准,为什么还要使用ROC呢?
原因在于ROC曲线有个很好的特性:当测试集中的正负样本的分布变换的时候,ROC曲线能够保持不变。在实际的数据集中经常会出现样本类不平衡,即正负样本比例差距较大,而且测试数据中的正负样本也可能随着时间变化,使用ROC曲线不管是数据集怎么变换,都有直观的展示效果。
05 AUC值
ROC曲线一定程度上可以反映分类器的分类效果,但始终是以图像的形式,不能告诉我们直接的结果。我们希望有一个指标,这个指标越大代表模型的效果越好,越小代表模型的效果越差。于是引入了AUC值(Area Under Curve)的概念。
AUC是数据分析中最常用的模型评价指标之一,实际上AUC代表的含义就是ROC曲线下的面积,如下图所示,它直观地反映了ROC曲线表达的分类能力。AUC值通常大于0.5小于1,AUC(面积)越大的分类器,性能越好。
AUC值的图形展示
AUC值的定义是:从所有正类样本中随机选取一个样本,再从所有负类样本中随机选取一个样本,然后分类器对这两个随机样本进行预测,把正类样本预测为正类的概率为p1,把负类样本预测为正类的概率为p0,p1>p0的概率就等于AUC值。
即AUC值是指随机给定一个正样本和一个负样本,分类器输出该正样本为正的概率值比分类器输出该负样本为正的那个概率值要大的可能性,AUC值越高代表模型的排序能力越强。理论上,如果模型把所有正样本排在负样本之前,此时AUC的取值为1,代表模型完全分类正确,但这种情况在实际中不可能出现。
总结AUC值的四种取值结果有:
AUC=1时,代表采用这个预测模型,不管设定什么阈值都能得出完美预测,模型能够将所有的正样本都排在负样本前面。但是在现实中不存在完美的分类器。
0.5<AUC<1时,代表模型的效果比随机猜测的准确率高,也就是说模型能够将大部分的正样本排在负样本前面,模型有一定的预测价值。
AUC=0.5时,代表模型的预测效果与随机猜测一样,只有50%的准确率。也就是说模型完全不能区分哪些是正样本哪些是负样本,没有预测价值。
AUC<0.5时,代表模型的预测效果比随机猜测还差;但只要将样本正负例互换,结果就能优于随机猜测。
5. origin8.0画图问题,我有三组数据想用三个坐标轴画出来(X轴相同,Y轴大小不一样)水平排列。怎么画
你是想画出三个图还是三个y轴。
画三个图的话,直接画出某一个,然后改变图板大小,然后新加两个layer,调整layer的位置,在新layer上添加你要画的图。
三个y轴的话,先用double y画出两组数据,然后添加一个单y的layer,调整位置,画出想要的数据
6. 就是这个指标有三年的数据,但是三年数据是分三列展示,占用了spss的不同变量,这样怎么进行相关分析
得数据整理后才能分析
7. 跪求高手!!现在有三组数据,其中两个是自变量,一个是因变量,如何对其进行拟合,他们的函数形式不知道
你可以试用一些数据分析软件,先做线性回归,然后比较参数的critical value和significance然后决定是否reject null hypothesis.如果reject,再加lag进行回归分析,或是试用其他的函数模式,如polynomi或是lognormal,log,exponential等.直到你parameter的值不被reject.
8. 统计学期末试卷
《统计学原理》期末考试模拟试题
谢颖 2004-05-10 09:55
《统计学原理》期末考试模拟试题
一、 填空题(每小题2分,共10分)
1. 表示单位属性方面特征的标志是_______,而表示单位数量方面特征的标志是________。
2. 任何一个统计分布都必须满足___________和_____________两个条件。
3. 抽样估计就是利用实际调查计算的_____________来估计相应的______________数值。
4. 回归分析中因变量是_________变量,而自变量是作为可控制的___________变量。
5. 统计总指数的计算形式有_____________和________________。
二、 判断题(每小题2分,共10分)
1. 普查一般用来调查属于一定时点上社会经济现象的数量,它并不排斥对属于时期现象的项目的调查。( )
2. 同一个总体,时期指标值的大小与时期长短成正比,时点指标值的大小与时点间隔成反比。( )
3. 在抽样推断中,全及指标值是确定的、唯一的,而样本指标值是一个随机变量。( )
4. 抽样成数的特点是:样本成数越大,则抽样平均误差越大。( )
5. 在各种动态数列中,指标值的大小都受到指标所反映的时期长短的制约。( )
三、 单选题(每小题2分,共12分)
1.构成统计总体的个别事物称为( )
A.调查单位 B. 标志值 C. 品质单位 D. 总体单位
2. 复合分组是 ( )
A.用同一标志对两个或两个以上的总体层叠起来进行分组
B.对某一总体选择一个复杂的标志进行分组
C.对同一总体选择两个或两个以上的标志层叠起来进行分组
D.对同一总体选择两个或两个以上的标志并列起来进行分组
3. 总量指标按反映时间状况的不同,分为 ( )
A.数量指标和质量指标 B.时间指标和时点指标
C.总体单位总量和总体标志总量 D.实物指标和价值指标
4. 计算平均指标最常用的方法和最基本的形式是 ( )
A.中卫数 B.众数 C.算术平均数 D.调和平均数
5.统计指数按指数化指标的性质不同,可分为 ( )
A.总指数和个体指数 B.数量指标指数和质量指标指数
C.平均指数和平均指标指数 D.综合指数和平均数指数
6.计算序时平均数时,”首末折半法”适用于 ( )
A.时期数列计算序时平均数 B.间隔相等的时点数列计算序时平均数
C.间隔不等的时点数列计算序时平均数 D.由两个时点数列构成的相对数列动态数列计算序时平均数
四、 多选题 (每小题2分,共8分)
1.次数分配数列( )
A. 由总体按某标志所分的组和各组单位数两个因素构成
B. 由组距和组数、组限和组中值构成的
C. 包括品质分配数列和变量数列两种
D. 可以用图表形式表现
E. 可以证明总体结构和分布特征
2.调查单位是( )
A. 需要调查的总体
B. 需要调查的总体单位负责人
C. 调查项目的承担者
D. 负责报告调查结果的单位
E. 调查对象所包含的具体单位
3.抽样估计中的抽样误差( )
A. 是不可避免要产生的
B. 是可以通过改进调查方式来消除的
C. 是可以事先计算出来的
D. 只能在调查结束后在能计算的
E. 其大小是可能控制的
4.设产品的单位成本(元)对产量(百件)的直线回归方程为yc=76-1.85x,这表示( )
A. 产量每增加100件,单位成本平均下降1.85元
B. 产量每减少100件,单位成本平均下降1.85元
C. 产量与单位成本按相反方向变动
D. 产量与单位成本按相同方向变动
E. 当产量为200件时,单位成本为72.3元
五、 问答题(每小题5分,共10分)
1. 简述变异指标的概念和作用。
2. 平均指数的基本含义和计算机形式是什么?
六、 计算题(每小题10分,共50分)
1. 某班40名学生统计学考试成绩(分)分别为:
57 89 49 84 86 87 75 73 72 68 75 82 97 81
67 81 54 79 87 95 76 71 60 90 65 76 72 70
86 85 89 89 64 57 83 81 78 87 72 61
学校规定:60分以下为不及格,60-70分为及格,70-80分为中,80-90分为良,90-100分
为优。要求:
(1) 将该班学生分为不及格、及格、中、良、优五组,编制一张次数分配表。
(2) 指出分组标志及类型;分析该班学生考试情况。
2. 某厂三个车间一季度生产情况如下:
车间 计划完成百分比 实际产量(件) 单位产品成本(元\件)
第一车间 90% 198 15
第二车间 105% 315 10
第三车间 110% 220 8
根据以上资料计算:
(1)一季度三个车间产量平均计划完成百分比.
(2)一季度三个车间平均单位产品成本.
3.某地农科所经回归分析,得到某作物的亩产量(y表示,单位为“担\亩”)与浇水量(用X表示,单位为“寸”)的直线回归方程为:yc=2.82+1.56x。又知变量x的方差为99.75,变量y的方差为312.82
要求:(1)计算浇水量为0时的亩产量;
(2)计算浇水量每增加一寸时平均增加的亩产量;
(3)计算浇水量与亩产量之间的相互关系数,并分析相关的密切程度和方向。
(要求写出公式和计算过程,结果保留两位小数)
4.某企业产品的单位成本1988您比1987年降低2%,1989年比1988年降低5%,1990年比1989年降低3%,1991年比1990年降低1.5%,试以1987年为基期,计算1988年至1991年该企业单位成本总的降低速度和平均降低速度。(要求写出公式和计算过程,结果保留四位小数。)
5 从一批零件中抽取200件进行测验,其中合格品188件。
要求:(1)计算该批零件合格率的抽样平均误差;
(2)按95.45%的可靠程度(t=2)对该批零件的合格率作出区间估计。
6. 某企业产品的单位成本1988您比1987年降低2%,1989年比1988年降低5%,1990年比1989年降低3%,1991年比1990年降低1.5%,试以1987年为基期,计算1988年至1991年该企业单位成本总的降低速度和平均降低速度。(要求写出公式和计算过程,结果保留四位小数。)
7. 从一批零件中抽取200件进行测验,其中合格品188件。
要求:(1)计算该批零件合格率的抽样平均误差;
(2)按95.45%的可靠程度(t=2)对该批零件的合格率作出区间估计。
北京信息科技大学 《统计学》课程期末考试试卷(A卷)
北京信息科技大学
2007 ~2008学年第一学期
课程所在学院:经济管理学院 适用专业班级:注会0501 0502
考试形式:( 闭卷)
一、单项选择题(本大题共15小题,每小题1分,共15分)
在每小题列出的四个备选项中只有一个是符合题目要求的,请将其代码填写在题后的括号内。错选、多选或未选均无分。
1.下列哪个不属于一元回归中的基本假定( D )。
A.对于所有的X,误差项的方差都相同
B.误差项 服从正态分布
C.误差项 相互独立
D.
2.某组数据分布的偏度系数为负时,该数据的众数、中位数、均值的大小关系是( A )。
A.众数>中位数>均值
B.均值>中位数>众数
C.中位数>众数>均值
D.中位数>均值>众数
3.一元回归方程为y=11.64一0.25x,则下列说法中正确的是( C )。
A.自变量平均增长一个单位,因变量减少0.25个单位
B.自变量和因变量之间成正相关关系
C.
D.
4.有甲乙两组数列,则( A )数列平均数的代表性高。
A. 1< 2 1> 2,则乙数列平均数的代表性高
B. 1< 2 1> 2,则乙数列平均数的代表性低
C. 1= 2 1> 2,则甲数列平均数的代表性高
D. 1= 2 1< 2,则甲数列平均数的代表性低
5.某连续变量数列,其末组为开口组,下限为500,相邻组的组中值为480,则末组的组中值为( A )。
A.520 B.510 C.500 D.540
6.不受极端变量值影响的平均数是( D )。
A.算术平均数 B.调和平均数
C.几何平均数 D.众数
7.有20个工人看管机器台数资料如下:2,5,4,4,3,4,3,4,4,2,2,4,3,4,6,3,4,5,2,4,如按以上资料编制频数分布数列应采用( A )。
A.单项式分组 B.等距分组 C.不等距分组 D.以上几种分组均可以
8.若无季节变动,则季节比率应为( B )。
A.0 B. 1 C. 大于1 D. 小于1
9.如果一个定性的变量有m类,则要引进( C )个虚拟变量。
A.m B.m+1
C.m-1 D.无法判断
10.第一组工人的平均工龄为5年,第二组为7年,第三组为10年,第一组工人数占总数的20%,第二组占60%,则三组工人的平均工龄为( B )
A.8年 B.7.2年 C.5年 D.7.8年
11.某企业2007年各种产品的产量比2006年增长了8%,总生产费用增长了12%,则该厂2007年单位成本( D )
A.减少了0.62% B.增加了0.62%
C.减少了3.7% D.增加了3.7%
12.相关系数r与斜率b2的符号( A )。
A.相同 B.不同
C.无法判断
13.已知小姜买的两种股票的综合价格指数上涨了24点,本日股票的平均收盘价格为14元,前日股票的平均收盘价格为( C )
A.10.64 B.10.5
C.11.29 D.无法计算
14.若今年比去年的环比发展速度为112%,去年比前年的环比增长率为3%,那么今年比前年的平均增长率为( D )。
A.9.0% B.7.4%
C.7.5% D.15.4%
15.已知今年增长1%的绝对值为0.54,去年比前年增长的绝对值为5,则去年比前年的增长率为( C )。
A.9.3% B.8.7%
C.10.2% D.无法计算
二、多项选择题(每小题2分,共16分)
在每小题列出的若干选项中有多个选项是符合题目要求的,请将正确选项前的字母填在题后的括号内。多选、少选、错选均无分。
1.下列变量,属于离散变量的有( A D E F )。
A.库存产品数量 B.流动资产对流动负债的比率
C.货物总重量 D.按个计量的货物数量
E.一条收费公路上的交通量 F.公司年会的出席人数
2.指出下列数据收集属于通过实验的方法收集数据的有(A B E )
A.培训航空机票代理人的新方法与传统方法的比较结果
B.通过让两组可以比较的孩子分别使用两种不同的组装说明组装玩具来比较这两种组装说明
C.一份产品评价杂志给它的订阅者邮寄调查问卷,请他们为近期购买的产品排名
D.采访一个购物中心的顾客,询问他们为什么在那里购物
E.通过在两个可比较地区分别采用不同的方法,比较两种不同的养老金促销方法
3.下列组限的表示方法哪些是对的( A B D )。
A.按职工人数分组,相邻组的组限可以重叠,也可以间断
B.职工按工资分组,其组限必须重叠
C.学生按成绩分组,其组限必须间断
D.人按身高分组,其组限必须重叠
4.下列属于质量指标指数的有( A B D E )。
A.价格指数 B.单位成本指数
C.销售量指数 D.工资水平指数
E.劳动生产率指数
5.具体地说,如果出现下列( A B C )情况,暗示多元回归模型有可能存在多重共线性。
A.模型中各对自变量之间显著相关
B.线形关系显著,回归系数 的t检验却不显著
C.回归系数的正负号与预期相反
D.
6.算术平均数具有下列哪些性质( B C )。
A. (X- )=最小值 B. (X- )=0
C. (X- )2=最小值 D. (X- )2=0
E. (X- )=1
7.在频数分布数列中( C D E )。
A.总次数一定,频数和频率成反比 B.各组的频数之和等于100
C.各组频率大于0,频率之和等于1 D.频率越小,则该组数值所起作用越小
E.频率表明各组变量值对总体的相对作用程度
8.标准差( C E )。
A.表明总体单位标志值的一般水平 B.反映总体单位的一般水平
C.反映总体单位标志值的离散程度 D.反映总体分布的集中趋势
E.反映总体分布的离中趋势
三、简答题(本大题共2题,每题5分,共10分)
1.什么是年度化增长率?它有何用途?
2.数值型数据的分组方法有哪些?简述组距分组的步骤。
(1)可分为单变量值分组和组距分组两种分组方法。
单变量值分组:将一个变量值作为一组;适合于离散变量;适合于变量值较少的情况(+1)
组距分组:将变量值的一个区间作为一组;适合于连续变量;适合于变量值较多的情况;需要遵循“不重不漏”的原则;可采用等距分组,也可采用不等距分组。(+1)
(2)A.确定组数:
(+1)
B.确定组距:组距(class width)是一个组的上限与下限之差,可根据全部数据的最大值和最小值及所分的组数来确定(+1)
C.统计出各组的频数并整理成频数分布表。(+1)
四、判断题(本大题共5小题,每小题1分,共5分)
1.相关系数为+1时,说明两变量完全相关,相关系数为-1时,说明两个变量不相关。( 错 )
2.如果各种商品价格平均上涨5%,销售量平均下降5%,则销售额指数不变。( 错 )
3.连续型变量和离散型变量在进行组距式分组时,均可采用相邻组组距重叠的方法确定组限。( 对 )
4.根据建立的直线回归方程,不能判断出两个变量之间相关的密切程度。( 对 )
5.设P表示单位成本,q表示产量,则∑p1q1—∑p0q1表示由于产品单位成本的变动对总产量的影响。( 错 )
四、计算分析题(共54分)
1.将某邮局中外发邮包样本的重量近似到盎司为:21,18,30,12,14,17,28,10,16,25。计算这组数据的均值,中位数,众数,极差,四分位间距,从偏斜度的角度描述数据的分布形状(10分)。
2.表1中列出了在一个为期三周的商务统计课程中学生课外学习的小时数和他们在课程结束时的测试分数的样本数据如下:
表1 学生课外学习时间及考试分数统计表
学生样本 1 2 3 4 5 6 7 8
学习时间,X 20 16 34 23 27 32 18 22
考试分数,Y 64 61 84 70 88 92 72 77
利用EXCEL进行回归,结果如下表:(共15分)
SUMMARY OUTPUT
回归统计
Multiple R 0.862109
R Square 0.743232
Adjusted R Square 0.700437
标准误差 6.157605
观测值 8
方差分析
df SS MS F Significance F
回归分析 1 658.5034 658.5034 17.36738233 0.005895457
残差 6 227.4966 37.9161
总计 7 886
Coefficients 标准误差 t Stat P-value
Intercept 40.08163265 8.889551 4.50884785 0.004065471
X Variable 1 1.496598639 0.359119 4.16741915 0.005895457
分析并回答下列问题:
(1)学习时间与考试分数之间的相关系数是多少,考试分数的变差中有多少是由于学习时间的变动引起的? 86.21% 74.32%
(2) 根据EXCEL回归输出结果,写出估计的回归方程并解释回归系数的实际意义。
(3) 检验线性关系的显著性 。
(4) 根据标准化残差图判断关于随机误差项正态分布的假定是否成立。
标准化残差分布在-2~2之间,因此关于随机误差项服从正态分布的假定成立
3.随机抽取了15家大型商场销售的同类产品的有关数据(单位:元),利用EXCEL进行回归,结果如下表:(共15分)
SUMMARY OUTPUT
回归统计
Multiple R 0.593684
R Square 0.35246
Adjusted R Square 0.244537
标准误差 69.75121
观测值 15
方差分析
df SS MS F Significance F
回归分析 2 31778.15 15889.08 3.265842 0.073722186
残差 12 58382.78 4865.232
总计 14 90160.93
Coefficients 标准误差 t Stat P-value
Intercept 375.6018288 339.410562 1.10662976 0.290145025
X Variable 1 0.537840951 0.21044674 2.55571054 0.02519961
X Variable 2 1.457193542 0.667706586 2.18238606 0.049681066
相关系数矩阵
Y X1 X2
Y 1
X1 0.308952067 1
X2 0.001214062 -0.8528576 1
注:X Variable 1为购进价格/元
X Variable 2为销售费用/元
因变量Y为销售价格/元
(1)指出Y与X1,Y与X2之间的相关系数,是否有证据表明购进价格、销售价格与销售费用之间存在线性关系? 0.3089 0.0012 没有,因为相关系数较小
(2)根据上诉结果,你认为用购进价格与销售费用来预测是否有用?没用
(3)根据EXCEL回归输出结果,写出估计的回归方程并检验线性关系是否显著( )。不显著
(4)解释判定系数R2,所得结论与问题(2)中是否一致? R2=35.25% , 在销售价价格的总变差中,被估计的回归方程所解释的比例是35.25%,一致。(+3)
(5)X1与X2之间的相关系数是什么?意味着什么?高度相关
(6)模型中是否存在多重共线性?你对模型有何特长建议?可能存在多重共线性;进一步检验是否存在多重共线性,对X1与X2的样本相关系数进行显著性检验(rx1x2=-0.8529),如果是显著,即可确定为存在多重共线性。(+2)
对模型有何特长建议:根据研究目的,删掉相对次要的解释变量。(+1)
4.一公司生产的三种产品的有关如下数据如下表所示 (共14分):
商品 计量单位 销售量 单价(万元)
2005年 2006年 2005年 2006年
甲 公斤 400 480 0.8 0.82
乙 吨 80 88 1.15 1.05
丙 件 50 60 1.20 1.38
(1)计算三种产品的销售额指数;
(2)计算三种产品的销售量指数;
(3)计算三种产品的单位价格指数;
(4)计算分析产量和单位价格的变动对销售额影响的相对数和绝对数。
北京信息科技大学
2007 ~2008学年第一学期
《统计学》课程期末考试试卷标准答案(A卷)
一、 单项选择题(本大题共15小题,每小题1分,共15分)
在每小题列出的四个备选项中只有一个是符合题目要求的,请将其代码填写在题后的括号内。错选、多选或未选均无分。
1.(A) 2.(A) 3.( C) 4.(A) 5.(D)
6.(D) 7(A) 8( B) 9.(C) 10.(B)
11.(D) 12.(A) 13.(C) 14.(D) 15.(C)
二、 多项选择题(每小题2分,共16分)
在每小题列出的五个选项中有二至五个选项是符合题目要求的,请将正确选项前的字母填在题后的括号内。多选、少选、错选均无分。
1.(ADEF) 2.(ABE ) 3. (ABD ) 4.(ABDE) 5.(ABC)
6.(BC ) 7.(CDE) 8.(CE)
三、 简答题(本大题共2题,每题5分,共10分)
1. 什么是年度化增长率?它有何用途?
(1)增长率以年来表示时,称为年度化增长率或年率,(+2)
其计算公式为:
m 为一年中的时期个数;n 为所跨的时期总数
季度增长率被年度化时,m =4
月增长率被年度化时,m =12
当m = n 时,上述公式就是年增长率 (+2)
(2)可将月度增长率或季度增长率转换为年度增长率,实现增长率之间的可比性。(+1)
2. 数值型数据的分组方法有哪些?简述组距分组的步骤。
(1)可分为单变量值分组和组距分组两种分组方法。
单变量值分组:将一个变量值作为一组;适合于离散变量;适合于变量值较少的情况(+1)
组距分组:将变量值的一个区间作为一组;适合于连续变量;适合于变量值较多的情况;需要遵循“不重不漏”的原则;可采用等距分组,也可采用不等距分组。(+1)
(2)A.确定组数:
(+1)
B.确定组距:组距(class width)是一个组的上限与下限之差,可根据全部数据的最大值和最小值及所分的组数来确定(+1)
C.统计出各组的频数并整理成频数分布表。(+1)
四、判断题(本大题共5小题,每小题1分,共5分)
1.相关系数为+1时,说明两变量完全相关,相关系数为-1时,说明两个变量不相关。(×)
2.如果各种商品价格平均上涨5%,销售量平均下降5%,则销售额指数不变。(×)
3.连续型变和离散型变量在进行组距式分组时,均可采用相邻组组距重叠的方法确定组限。(√)
4.根据建立的直线回归方程,不能判断出两个变量之间相关的密切程度。(√)
5.设P表示单位成本,q表示产量,则∑p1q1—∑p0q1表示由于产品单位成本的变动对总产量的影响。(×)
五、计算分析题(共55分)
中位数的位置:(10+1)/2=5.5
中位数
从偏斜度的角度描述数据的分布形状:均值>中位数,正向(右)偏
(+2)
2.(1)学习时间与考试分数之间的相关系数是多少,考试分数的变差中有多少是由于学习时间的变动引起的?
r=0.862109, (+1)
R2=0.743232, 考试分数的变差中有74.3232%是由于学习时间的变动引起的。(+2)
(2) 根据EXCEL回归输出结果,写出估计的回归方程并解释回归系数的实际意义。
(+3)
回归系数的含义表明学习时间每增加一个小时, 考试分数平均增加1.497分。(+2)
(3) 检验线形关系的显著性
Significance F=0.005895457〈 =5%
线性关系显著。(+3)
(4) 根据标准化残差图判断关于随机误差项服从正态分布的假定是否成立。
标准化残差分布在-2~2之间,因此关于随机误差项服从正态分布的假定成立。(+4)
3. (1)指出Y与X1,Y与X2之间的相关系数,是否有证据表明购进价格、销售价格与销售费用之间存在线性关系
(1)ryxi =0.308952067 ryx2=0.001214062,
没有证据。(+2)
(2)根据上述结果,你认为用购进价格与销售费用来预测是否有用?
没有用。(+2)
(3)根据EXCEL回归输出结果,写出估计的回归方程并检验线性关系是否显著( )。
Significance F=0.073722> =5%
线性关系不显著。(+3)
(4)解释判定系数R2,所得结论与问题(2)中是否一致
R2=35.25% , 在销售价价格的总变差中,被估计的回归方程所解释的比例是35.25%,一致。(+3)
(5)X1与X2之间的相关系数是什么?意味着什么?
rx1x2=-0.8529,高度相关(+2)
(6)模型中是否存在多重共线性?你对模型有何特长建议?
可能存在多重共线性;进一步检验是否存在多重共线性,对X1与X2的样本相关系数进行显著性检验(rx1x2=-0.8529),如果是显著,即可确定为存在多重共线性。(+2)
对模型有何特长建议:根据研究目的,删掉相对次要的解释变量。(+1)
4. (1)三种产品的销售额指数; (+3)
三种产品的销售额指数=∑q1p1/∑q0p0
=568.8/472=120.51%
∑q1p1-∑q0p0==568.8-472=96.8万元
(2)三种产品的销售量指数; (+3)
Iq=∑q1p01/∑q0p0
=557.2/472=118.05%
∑q1p0-∑q0p0
=557.2-472=85.2万元
(3)三种产品的价格指数; (+3)
Ip=∑q1p1/∑q1p0
=568.8/557.2=1.0208=12.08%
∑q1p1-∑q1p0
=568.8-557.2=11.6万元
(4) 分析产量和单位价格的变动对销售额影响的相对数和绝对数。(+5)
120.51%=118.05%*102.08% (+3)
96.8万元万元=85.2万元+11.6万元 (+2)