在同一变量数列中,组数与组距成正比关系是错的。
组距是指每组的最高数值与最低数值之间的距离。在分组整理统计量数时,组的大小可因系列内量数的全距及所要划分的组数的不同而有所不同。每一组的最小限度叫做下限,最大限度叫做上限。下限和上限之间的距离,即为组距。
组距分组:
组距分组是将全部变量值依次划分为若干个区间,并将这一区间的变量值作为一组。组距分组是数值型数据分组的基本形式。在组距分组中,各组之间的取值界限称为组限,一个组的最小值称为下限,最大值称为上限;上限与下限的差值称为组距;上限与下限值的平均数称为组中值它是一组变量值的代表值。
把所有数据分成若干组,每个小组的两个端点之间的距离(组内数据的取值范围)称为组距。
组距分组的原则:
采用组距分组时,需要遵循“不重不漏”的原则。“不重”是指一项数据只能分在其中的某一组,不能在其他组中重复出现;“不漏”是指组别能够穷尽,即在所分的全部组别中每项数据都能分在其中的某一组,不能遗漏。为解决“不重”的问题,统计分组时习惯上规定“上组限不在内”。
即当相邻两组的上下限重叠时,恰好等于某一组上限的变量值不算在本组内,而计算在下一组内。例如,在表的分组中,120这一数值不计算在“115-120”这一组内,而计算在“120-125”组中,其余类推。当然,对于离散变量,可以采用相邻两组组限间断的办法解决“不重”的问题。
组数:
组数,即分组个数。把分成组的个数称为组数,把所有组分成若干份,每一个组的两个端点之间的距离称为组距。组数=[极差/组距]+1。在所研究总体一定的情况下,组数的多少和组距的大小是紧密联系的。一般说来,组数和组距成反比关系。
在对同一现象进行分组时,组数少,则组距大;组数多,则组距小。如果组数太多,组距过小,会使分组资料繁琐、庞杂,难以显现总体内部的特征和分布规律;如果组数太少,组距过大,可能会失去分组的意义,达不到正确反映客观事实的目的。