fccjxxw.com
非常超级学习网 学习超级帮手
当前位置:首页 >> 数学 >>

2015年河南省长垣县第十中学高一数学复习课件2.2.2《用样本的数字特征估计总体的数字特征》(新人教A版必修_图文

2.2.2

用样本的数字特征估计 总体的数字特征
1. 众数、中位数、平均数
2. 标准差

1

? 众数、中位数、平均数

2

一、众数、中位数、平均数的概念
众数、中位数、平均数都是描述一组数据 的集中趋势的特征数,只是描述的角度不同, 其中以平均数的应用最为广泛. 众数:在一组数据中,出现次数最多的数 据叫做这组数据的众数. 中位数:将一组数据按大小依次排列,把处 在最中间位置的一个数据(或最中间两个数据的 平均数)叫做这组数据的中位数. 平均数: 一组数据的算术平均数,即

x=

1 ( x1 ? x2 ? ? ? xn ) n
3

练习: 在一次中学生田径运动会上,参加 男子跳高的17名运动员的成绩如下表所示:
成绩 1.50 (单位:米)

1.60 1.65 1.70 3 2 3

1.75 1.80 1.85 1.90 4 1 1 1

人数

2

分别求这些运动员成绩的众数,中位数与 平均数 解:在17个数据中,1.75出现了4次,出现的 次数最多,即这组数据的众数是1.75. 上面表里的17个数据可看成是按从小到大 的顺序排列的,其中第9个数据1.70是最中间 的一个数据,即这组数据的中位数是1.70;
4

这组数据的平均数是

x ? (1.5 ? 2 ? 1.6 ? 3 ? ? 1.69

? 1.85 ? 1.9)

答:17名运动员成绩的众数、中位数、平均数 依次是1.75(米)、1.70(米)、1.69(米).

5

二 、 众数、中位数、平均数与 频率分布直方图的关系
频率

组距

1、众数在样本数据的频率分布直方图 中,就是最高矩形的中点的横坐标。
例如,在上一节调查的100位居民的月均用水量的 问题中,从这些样本数据的频率分布直方图可以看 出,月均用水量的众数是2.25t.如图所示:

0.5 0.4 0.3

0.2
0.1 月平均用水量(t) 6

O

0.5

1

1.5

2

2.5

3

3.5

4

4.5

2、在样本中,有50%的个体小于或等于中 位数,也有50%的个体大于或等于中位数,因 此,在频率分布直方图中,中位数左边和右边的 直方图的面积应该相等,由此可以估计中位数的 频率 值。下图中虚线代表居民月均用水量的中位数的 组距 估计值,此数据值为2.03t.

0.5 0.4 0.3 0.2 0.1 O 0.5 1 1.5 2 2.5 3 3.5 4 4.5 月平均用水量(t) 7

说明:

2.03这个中位数的估计值,与样本 的中位数值2.0不一样,这是因为样本数 据的频率分布直方图,只是直观地表明 分布的形状,但是从直方图本身得不出 原始的数据内容,所以由频率分布直方 图得到的中位数估计值往往与样本的 实际中位数值不一致.
8

3、平均数是频率分布直方图的“重心”.
频率 组距

是直方图的平衡点. n 个样本数据的平均数 由公式: x ? 1 ( x1 ? x2 ? ? ? xn ) 给出
n

下图显示了居民月均用 水量的平均数:
x=1.973

0.5 0.4 0.3 0.2 0.1 O 0.5 1 1.5 2 2.5 3 3.5 4

4.5

月平均用水量(t) 9

三 、三种数字特征的优缺点 1、众数体现了样本数据的最大集中 点,但它对其它数据信息的忽视使得无 法客观地反映总体特征. 如上例中众数是2.25t,它告诉我们,月均 用水量为2.25t的居民数比月均用水量为 其它数值的居民数多,但它并没有告诉我 们多多少.
10

2、中位数是样本数据所占频率 的等分线,它不受少数几个极端值的 影响,这在某些情况下是优点,但它 对极端值的不敏感有时也会成为缺点。 如上例中假设有某一用户月均用水量 为10t,那么它所占频率为0.01,几乎 不影响中位数,但显然这一极端值是不 能忽视的。
11

3、由于平均数与每一个样本的 数据有关,所以任何一个样本数据的 改变都会引起平均数的改变,这是众 数、中位数都不具有的性质。

也正因如此 ,与众数、中位数比较起 来,平均数可以反映出更多的关于样 本数据全体的信息,但平均数受数据 中的极端值的影响较大,使平均数在 估计时可靠性降低。
12


人员 周工资 人数

众数、中位数、平均数的简单应用
经理 管理人员 2200 250 1 6 高级技工 220 5 工人 200 10 学徒 100 1

例 某工厂人员及工资构成如下:

(1)指出这个问题中周工资的众数、中位数、平均数 (2)这个问题中,工资的平均数能客观地反映该厂 的工资水平吗?为什么? 解:众数为200,中位数为220,平均数为300。 因平均数为300,由表格中所列出的数据可见, 只有经理在平均数以上,其余的人都在平均数以下, 故用平均数不能客观真实地反映该工厂的工资水平。
13

? 标准差

14

平均数向我们提供了样本数据的重要信息,但是平均 有时也会使我们作出对总体的片面判断.因为这个平 均数掩盖了一些极端的情况,而这些极端情况显然是 不能忽的.因此,只有平均数还难以概括样本数据的 实际状态.
如:有两位射击运动员在一次射击测试中各射靶10次,每 次命中的环数如下:
甲:7 乙:9 8 5 7 7 9 8 5 7 4 6 9 8 10 6 7 7 7 4

如果你是教练,你应当如何对这次射击作出评价? 如果看两人本次射击的平均成绩,由于 x甲 ? 7,x 乙 ? 7 两人射击 的平均成绩是一样的.那么两个人的水平就没有什 么差异吗?
15
? ?

频率

频率 0.4 0.3

0.3 0.2

0.2 0.1 4 5 6 (甲) 7 8 9 10 0.1 环数 4 5 6 7 (乙) 8 9 10

环数

直观上看,还是有差异的.如:甲成绩比较分散, 乙成绩相对集中(如上图所示). 因此,我们还需要从另外的角度来考察这两组 数据.例如:在作统计图表时提到过的极差.

16

甲的环数极差=10-4=6

乙的环数极差=9-5=4.

它们在一定程度上表明了样本数据的分散程度,与平均数一 起,可以给我们许多关于样本数据的信息.显然,极差对极端值非 常敏感,注意到这一点,我们可以得到一种“去掉一个最高分,去 掉一个最低分”的统计策略. 考察样本数据的分散程度的大小,最常用的统计量是标准差. 标准差是样本平均数的一种平均距离,一般用s表示. 所谓“平均距离”,其含义可作如下理解:

假设样本数据是x1 , x2 ,...xn , x 表示这组数据的平均数。 xi到 x 的距离是:
x i ? x ( i ? 1,2, ?, n).
17
?

?

?

于是, 样本数据x1 , x2 ,? xn到 x 的“平均距离”是:
x1 ? x ? x2 ? x ? ? xn ? x n .
? ? ?

?

S ?

由于上式含有绝对值,运算不太方便,因此,通常改用 如下公式来计算标准差.
? ? ? 1? 2 2 2? s? ( x ? x ) ? ( x ? x ) ? ? ? ( x ? x ) . 1 2 n ? ? n? ?

一个样本中的个体与平均数之间的距离关系可用下图表示: 考虑一个容量为2的样本:

x2 ? x1 x2 ? x1 x1 ? x2 , 其样本的标准差为 , 记a ? . 2 2
18

a

x1

x1 ? x2 2

x2

显然,标准差越大,则a越大,数据的离散程度越大;标 准差越小,数据的离散程度越小. 用计算器可算出甲,乙两人的的成绩的标准差
s甲 ? 2,s
s甲 ? s乙


? 1? 095

由 可以知道,甲的成绩离散程度大,乙的成 绩离散程度小.由此可以估计,乙比甲的射击成绩稳定. 上面两组数据的离散程度与标准差之间的关系可用图直 观地表示出来.
s甲

s乙

4

5

6

7

8

9

10

19

例题1:画出下列四组样本数据的直方图,说明它们的异同点.
(1) 5, 5, 5, 5, 5, 5, 5, 5, 5; (2) 4, 4, 4, 5 , 5, 5, 6, 6, 6; (3) 3 , 3 , 4 , 4 , 5, 6 , 6, 7 , 7; (4) 2 , 2 , 2 , 2, 5 , 8 , 8 , 8 , 8 ;

解:四组样本数据的直方图是:
1.0 0.9 0.8 0.7 0.6 0.5 0.4 0.3 0.2 0.1 o

频率
?

x?5
S=0.00

1 2 3 45 (1)

6 7 8 20

频率 频率
?

1.0 0.9 0.8 0.7 0.6 0.5 0.4 0.3 0.2
o

x?5
S=0.82

1 2 3 45 (2)

6 7 8

频率 1.0 0.9 0.8 0.7 0.6 0.5 0.4 0.3 0.2 0.1 o

x?5
S=2.83

?

1.0 0.9 0.8 0.7 0.6 0.5 0.4 0.3 0.2 0.1 o

x?5
S=1.49

?

1 2 3 45

6 7 8

1 2 3 4 5 6 7 8

21

四组数据的平均数都是5.0,标准差分别是0.00,0.82,1.49,2.83. 虽然它们有相同的平均数,但是它们有不同的标准差,说明数据的分散程度 是不一样的.
标准差还可以用于对样本数据的另外一种解释.例如: 在关于居民月均用水量的例子中,平均数 所以
? ? ?

x ? 1.973

?

标准差s=0.868

x ? s ? 2.841, x ? 2 s ? 3.709 x ? s ? 1.105, x ? 2 s ? 0.237.
?

? ?? ? 这100个数据中,在 区间?x ? 2s, x ? 2s? ? ?0.237,3.70 9?外的只有4个。 ? ? ? ? ? ? 也就是说, x ? 2s, x ? 2s 几乎包含了所有样本数 据。 ? ? ? ?

从数学的角度考虑, 人们有时用标准差的平方s 2 ? ?方差来代替标准作为 测量样本数据分散程度的工具 :
? ? ? 1? ? 2 2 s ? ?( x1 ? x) ? ( x2 ? x) ? ? ? ( xn ? x) 2 ?. n? ? 2

22

例2 甲乙两人同时生产内径为25.40mm的一种零件.为了 对两人的生产质量进行评比,从他们生产的零件中各抽出 20件,量得其内径尺寸如下(单位:mm)
甲 25.46, 25.32, 25.45, 25.39, 25.36 25.34, 25.42, 25.45, 25.38, 25.42 25.39, 25.43, 25.39, 25.40, 25.44 25.40, 25.42, 25.35, 25.41, 25.39 乙 25.40, 25.43, 25.44, 25.48, 25.48 25.47, 25.49, 25.49, 25.36, 25.34 25.33, 25.43, 25.43, 25.32, 25.47

25.31, 25.32, 25.32, 25.32, 25.48
从生产的零件内径的尺寸看,谁生产的质量较高?
23

分析:每一个工人生产的所有零件的内径尺寸组成一个总体, 由于零件的生产标准已经给出(内径25.40mm),生产质量可以从 总体的平均数与标准差两个角度来衡量.总体的平均数与内径 标准尺寸25.00mm的差异在时质量低,差异小时质量高;当总体 的平均数与标准尺寸很接近时,总体的标准差小的时候质量高, 标准差大的时候质量低.这样比较两人的生产质量只要比较他 们所生产的零件内径尺寸所组成的两个总体的平均数与标准差 的大小即可.但是这两个总体的平均数与标准差都是不知道的, 根据用样本估计总体的思想,我们可以通过抽样分别获得相应 的样体数据,然后比较这两个样本的平均数,标准差,以此作为 两个总体之间的估计值. 解:用计算器计算可得:
x甲 ? 25.4005,x 乙 ? 25,4008; s甲 ? 0.038,s乙 ? 0.074
24
? ?

从样本平均数看,甲生产的零件内径比乙生产的更接近内 径标准(25.40mm),但是差异很小;从样本标准差看,由于 s甲 ? s乙, 因此甲生产的零件内径 比乙的稳定程度高得多 。
于是可以作出判断 , 甲生产的零件的质量比 乙的高一些。

从上述例子我们可以看到,对一名工人生产的零件内径 (总体)的质量判断,与我们抽取的内径(样本数据)直接相关.显 然,我们可以从这名工人生产的零件中获取许多样本(为什么?). 这样,尽管总体是同一个,但由于样本不同,相应的样本频率分 布与平均数,标准差等都会发生改变,这就会影响到我们对总体 情况的估计.如果样本的的代表性差,那么对总体所作出的估计 就会产生偏差;样本没有代表性时,对总体作出错误估计的可能 性就非常大.这也正是我们在前面讲随机抽样时反复强调样本 代表性的理由.在实际操作中,为了减少错误的发生,条件许可 时,通常采取适当增加样本容量的方法.当然,关键还是要改进 抽样方法,提高样本的代表性.
25

小结:
1 . 众数、中位数、平均数的概念

2. 众数、中位数、平均数与频率分布直 方图的关系 3. 三种数字特征的优缺点
4. 什么是标准差?

5. 如何利用标准差刻画数据的离散程度?
作业:P79练习1、2、3
26


更多相关文章:

非常超级学习网 fccjxxw.com

copyright ©right 2010-2021。
非常超级学习网内容来自网络,如有侵犯请联系客服。zhit325@126.com|网站地图