Cálculos con Datos Tabulados.
Cada vez que se usa valores tabulados para calcular estadísticas, éstas difieren de los que obtendríamos con los datos originales. Sin embargo, esta discrepancia es reducida y, habitualmente, no invalida los resultados porque al elegir la marca de clase como el punto central de cada intervalo, algunas veces éste será menor y otras mayor que las observaciones que representa. En consecuencia, las diferencias tienden a compensarse. Por otra parte se debe tener presente que al trabajar con datos de una muestra sólo se tiene información incompleta para representar a toda la población. Es más, si se extrae otra muestra, ésta sería diferente de la primera y los valores calculados en diversas estadísticas serían distintos. En consecuencia, no se debe perder de vista este importante hecho al momento de usar e interpretar instrumentos de cálculo estadístico que, por su naturaleza, siempre estarán contaminados por errores provenientes de diversas fuentes.
Resumiendo lo anterior, si se parte del hecho que los datos usados para el trabajo estadístico son cambiantes de muestra a muestra, no debiese preocupar mucho la presencia de pequeñas discrepancias motivadas por la representación de datos mediante marcas de clases.
Lo anterior es característico del trabajo estadístico, por lo que no es prudente aferrarse a mecanismos rígidos de análisis cuando la base sobre la que se apoyan está sujeta a variaciones inevitables. Es necesario aprender a extraer lo medular de una información y no enredarse en los detalles.
Ejemplo.
Suponga que interesa calcular la suma de las estaturas de la Tabla 1 de la sección 'Tabligrama', a partir de la tabulación hecha anteriormente.
INTERVALO | FREC | mi | fimi | |
1 | 150 - 155 | 1 | 152.5 | 152.5 |
2 | 155 - 160 | 11 | 157.5 | 1732.5 |
3 | 160 - 165 | 13 | 162.5 | 2112.5 |
4 | 165 - 170 | 6 | 167.5 | 1005.0 |
5 | 170 - 175 | 4 | 172.5 | 690.0 |
Para esta suma se usa la marca de clase como el valor de cada observación en el intervalo que, multiplicado por la frecuencia, nos da la suma parcial. La suma de éstas es 5692.5. Si se suma los datos originales, se obtiene 5667. La diferencia de 25.5 es sólo un 0.45% del valor original.
Cálculo del promedio con datos agrupados.
El cálculo del promedio, cuando sólo se dispone de datos agrupados, sigue el patrón usado en el ejemplo anterior. Como se vió, la suma de los datos, 5692.5, se obtuvo usando las marcas de clase. Asimismo, el número total de datos se calcula al sumar las frecuencias de cada intervalo. En este caso se tiene 1+11+13+6+4 = 35.
Por lo tanto el promedio está dado por el cuociente
5692.5/35 = 162.64286
Determinación de los intervalos.
Las dos tablas siguientes representan las notas en la escala de 1 a 7, de la Primera Prueba de Cátedra de 15 alumnos de un curso de Estadística en Primer Año de Universidad. La primera tabla se hizo según un mecanismo automático y la otra de acuerdo a la división ‘natural’ del recorrido de las notas
Existen varias reglas automáticas para determinar el número de intervalos a usar en la construcción de una tabla.
Existen varias reglas automáticas para determinar el número de intervalos a usar en la construcción de una tabla. Los programas estadísticos de uso habitual, las usan a menudo en su configuración estándar, aunque también permiten que el usuario decida por su cuenta las características de los intervalos que desea usar.
Una de las reglas más conocidas fue propuesta por Herbert Sturges y calcula el número k de intervalos mediante la expresión
k = 1 + log2(n) = 1 + 3.322 * log(n)
donde n es el tamaño de la muestra.
Al aplicar la Regla Sturges con n = 15, se obtiene un total de 5 intervalos. Su aplicación ‘automática’ entrega la siguiente tabla:
Notas | Nº de alumnos |
1.8 – 2.8 | 3 |
2.8 – 3.8 | 3 |
3.8 – 4.8 | 2 |
4.8 – 5.8 | 4 |
5.8 – 6.8 | 3 |
TOTAL | 15 |
Si, por otra parte, se analiza los datos según el punto de vista del usuario, resulta mejor construir esta otra tabla
Notas | Nº de alumnos |
1.0 – 2.0 | 1 |
2.0 – 3.0 | 2 |
3.0 – 4.0 | 4 |
4.0 – 5.0 | 3 |
5.0 - 6 .0 | 3 |
6.0- 7.0 | 2 |
TOTAL | 15 |
Al comparar las tablas anteriores, se puede ver que la segunda puede ser interpretada en forma mucho más útil. En particular, porque la nota cuatro tiene un sentido especial dentro del sistema de calificaciones, ya que es la menor nota de aprobación.Es claro entonces que, en este caso, un resumen estadístico debe permitir determinar el número de aprobados y reprobados en un examen.