Jardín, diciembre 2022
Curtosis de un muestreo que se rige por la distribución normal
La curtosis es una medida estadística que, determina el grado de concentración que presentan los valores de una variable, alrededor de su media. Es conocida como medida de apuntamiento.
Algunas variables presentan un mayor grado de concentración (menor dispersión) de los valores en torno a su media y otras, por el contrario, presentan un menor grado de concentración (mayor dispersión) de sus valores en torno a su valor central. La curtosis indica lo puntuda (mayor concentración) o lo achatada (menor concentración) que es una distribución, preferiblemente la normal.
Fig. 1 Curtosis
La curtosis también se suele definir así:
Ecuaciones (1) y (2)
Si g>0 El muestreo el Leptocúrtico
Si g=0 El muestreo es
Mesocúrtico
SI g<0 El muestreo
es Platicúrtico
Tal cual se muestra en la figura 1
Medidas centrales de la distribución normal
Promedio o media μ=Σxi / N la suma de todos los valores xi, dividida por N, número de datos. (3)
También μ = Σfixi /N; la suma de todos los valores, multiplicados por su frecuencia y todo divido por N
Desviación estándar s.d = s
Esta s.d se calcula en Excel con tablas, o directamente con la función de Excel:
"=DESVESTA(D8:D40), y nos aparece el resultado de la desviación estándar automáticamente" Para este ejemplo D8 es el primer valor de xi y D40 el último.
Veamos un ejemplo, con un muestreo de calificaciones de un examen, en una materia, en un nivel dado en la universidad.
Ejercicio 1
numero dato |
Calificación |
(x-u) ^4 |
frecuencia |
1 |
49 |
99264,3789 |
1 |
2 |
48 |
78715,3164 |
2 |
3 |
43 |
19061,2539 |
3 |
4 |
27 |
326,253906 |
1 |
5 |
38 |
2075,94141 |
1 |
6 |
37 |
1093,12891 |
2 |
7 |
35 |
197,753906 |
1 |
8 |
21 |
11038,1289 |
2 |
9 |
31 |
0,00390625 |
2 |
10 |
31 |
0,00390625 |
1 |
11 |
29 |
25,6289063 |
1 |
12 |
39 |
3607,50391 |
3 |
13 |
27 |
326,253906 |
1 |
14 |
26 |
759,691406 |
1 |
15 |
23 |
4632,50391 |
|
16 |
32 |
0,31640625 |
2 |
17 |
20 |
16018,0664 |
|
18 |
19 |
22518,7539 |
1 |
19 |
43 |
19061,2539 |
2 |
20 |
27 |
326,253906 |
1 |
21 |
46 |
47333,4414 |
1 |
22 |
44 |
26426,5664 |
|
23 |
34 |
57,1914063 |
|
24 |
21 |
11038,1289 |
|
25 |
37 |
1093,12891 |
|
26 |
35 |
197,753906 |
|
27 |
29 |
25,6289063 |
|
28 |
39 |
3607,50391 |
1 |
29 |
30 |
2,44140625 |
|
30 |
30 |
2,44140625 |
1 |
31 |
23 |
4632,50391 |
|
32 |
31 |
0,00390625 |
|
33 |
25 |
1525,87891 |
|
34 |
24 |
2762,81641 |
|
35 |
41 |
9036,87891 |
|
36 |
27 |
326,253906 |
|
37 |
16 |
54085,3164 |
|
38 |
20 |
16018,0664 |
1 |
39 |
33 |
9,37890625 |
|
40 |
20 |
16018,0664 |
1 |
1250 |
473247,781 |
||
u promedio |
31,25 |
s = desv est |
8,6698712 |
N |
40 |
Tabla 1 Una muestra
de calificaciones
En Excel podemos encontrar directamente la desviación estándar con la función que indicamos
"= DESVESTA(D8:D40), y nos aparece el resultado de la desviación estándar automáticamente"
La curtosis, calculada con la fórmula (1) nos da 2,0940064, es decir la muestra es Platicúrtica.
Excel también nos da la curtosis directamente, pero como los resultados me dieron diferente, investigué que es lo que calcula Excel y vi que difería un poco de la curtosis, definida en fórmulas (1) y (2), da un valor cercano a g (3) y cumple con la definición de Leptocúrtica, Mesocúrtica y Platicúrtica.
La función de Excel que nos entrega directamente la curtosis.
=CURTOSIS(An:Am) Donde An es el primer valor de la lista de datos y Am el último valor de la tabla de datos Y n<m
A manera de ejemplo voy a calcular la curtosis con el Excel, para la lista dada
=CURTOSIS(C9:C48) = -0,74024 que igual nos dice que la muestra es Platicúrtica
Que si la comparamos con la g nuestra (K – 3) = -0,9060, igualmente me dice que el muestreo es Platicúrtico.
Dibujar el histograma en Excel
Para dibujar el histograma, debemos agrupar los datos xi, en intervalos de marca de clase y colocar el número de datos que hay en cada intervalo.
intervalo |
frecuencia |
marca |
0 a 4 |
0 |
2 |
5 a 9 |
0 |
7 |
10 a 14 |
0 |
12 |
15 a 19 |
2 |
17 |
20 a 24 |
8 |
22 |
25 a 29 |
8 |
27 |
30 a 34 |
8 |
32 |
35 a 39 |
7 |
37 |
40 a 44 |
4 |
42 |
a45 a 49 |
3 |
47 |
40 |
Tabla 2 (ejercicio 1,
agrupado en intervalos)
Para encontrar las frecuencias en cada intervalo, es conveniente reescribir la tabla de los datos xi y ordenarlos de menor a mayor. Se visualiza más fácilmente, el número de calificaciones en cada intervalo.(Excel tiene la función ordenar, cuando se selecciona la tabla)
Vamos a la hoja de Excel (donde tenemos el cuadro anterior)
Crear gráfico de histograma en Excel
Insertar>insertar grafico (escogeremos el primero que aparece)
Puede que nos aparezca directamente
seleccionar datos y si no aparece, damos doble clic dentro del gráfico, que ya
nos produjo Excel y aparece.
Aparece un cuadro y
arriba un cajón que pide el rango de datos. Limpiamos el cajón y seleccionamos
la columna de las frecuencias. Aparece el gráfico con un eje vertical con las
frecuencias. En el mismo cuadro aparece al lado derecho “editar” le metemos la
columna intervalo. Ya apareció el histograma básico, en el eje y las
frecuencias y en el eje x los nombres de los intervalos.
Figura 2 Histograma
básico
Volvemos al gráfico (seleccionar datos) y a lo que teníamos le decimos agregar.
Aparece un cuadro que
se pide que se llene con un nombre (cualquier nombre) y aparece un cajón que
pide que le metan valores (limpiamos) y seleccionamos nuevamente las
frecuencias. Aparece el siguiente gráfico.
Figura 3 Histograma
más elaborado.
En estilos, arriba, escogemos del menú que nos ofrece. Voy a escoger el que une las barritas Si clicamos uno de los dos colores, se seleccionan las barritas de ese color y nos permite cambiar el color del gráfico.
Vamos en esto:
Figura 4 Histograma
casi terminado
Figura 6 Función de
densidad del ejercicio.
Esta función de densidad es el modelo teórico del muestreo. Como se ve es plana, Platicúrtica.
Si queremos saber cuál es el porcentaje de datos menores que 24, realizaríamos la integral definida entre menos infinito y 24 de la función de densidad. Como esta integral es muy difícil, se han creado tablas, que permiten encontrar ese porcentaje o también la probabilidad de que se encuentre un valor menor que 24.
Estas tablas obligan un cambio de variable así:
z= (xi – μ) /s (6)
Esta nueva variable z tiene media igual a 0 y los valores de z se ubican en un rango muy cómodo, especialmente entre -5 y 5 y los valores correspondientes a la probabilidad o el % que la variable z sea z<a
Por ejemplo, encontremos el porcentaje de muestras menores que xi =30. (a un valor de z)
z= -0,142
En la tabla buscamos verticalmente el -0.1 y horizontalmente el 0.04 y la probabilidad o el porcentaje lo encontramos donde se cruzan la fila y la columna. % = 0,4482
Por ejemplo, encontremos el porcentaje de muestras menores que xi = 34
z= 0,3719
En la tabla buscamos verticalmente el 0,3 y horizontalmente el 0,07 y la probabilidad o el porcentaje lo encontramos donde se cruzan la fila y la columna. % = 0.6443
La probabilidad de encontrar una muestra que se encuentre entre x = 30 y x = 34.
Restamos los
porcentajes o probabilidades para 34 y para 30 y así obtenemos:0,6443 – 0,4482
= 0,1961
Este número equivale a la frecuencia relativa en el intervalo de 30 a 34. Para obtener la frecuencia absoluta multiplicamos el porcentaje por N=40 y obtenemos f teórica en el intervalo igual a 0,1961x40 = 7,84 y en la tabla 2, del muestreo real la frecuencia en ese intervalo era igual a 8.
La distribución teórica se acerca mucho a la curva de densidad de probabilidad normal, específica para este caso.
Tabla 3. Tablas de la
distribución z = (xi – μ)/s
Ejercicio 2
Nos dan una lista de 33 calificaciones o scores, desordenadas y sin frecuencia. Lo mejor es copiar la tabla en desorden y luego se ordena de menor a mayor (Excel lo hace sólo), basta seleccionar toda la columna y darle clik y nos aparece la opción ordenar.
En la columna anterior,
creamos una numeración ascendente, para ver el número de datos.
Escogemos los
intervalos de agrupación.
calificación |
|
1 |
27 |
2 |
48 |
3 |
48 |
4 |
54 |
5 |
57 |
6 |
59 |
7 |
59 |
8 |
60 |
9 |
61 |
10 |
61 |
11 |
62 |
12 |
63 |
13 |
64 |
14 |
64 |
15 |
65 |
16 |
65 |
17 |
66 |
18 |
67 |
19 |
67 |
20 |
67 |
21 |
68 |
22 |
68 |
23 |
68 |
24 |
68 |
25 |
71 |
26 |
72 |
27 |
72 |
28 |
76 |
29 |
76 |
30 |
78 |
31 |
80 |
32 |
86 |
33 |
94 |
|
|
Tabla 4 Datos del
segundo ejercicio.
Se suma la lista de las calificaciones y dividimos por 33 y obtenemos el valor medio u
μ
= 2161/33 = 65,4848485
La desviación estándar la encontramos con Excel d.s = s= 11,78484517
Curtosis de Excel 3,234873442>0 muestreo Leptocúrtica
(La curtosis calculada en Excel, pero por tablas que uno elabora: g = K – 3 = 2,25)
Con ambas, concluiríamos que la muestra es Leptocúrtica, es decir
puntuda, con muchos datos cerca de la media.
Agrupamos los resultados en intervalos apropiados.
intervalo
de clase |
frecuencia |
Marca de
clase |
Frecuencia
relativa |
RF*360 |
|
1 |
0 a 9 |
0 |
4,5 |
0 |
0 |
2 |
10 a 19 |
0 |
14,5 |
0 |
0 |
3 |
20 a 29 |
1 |
24,5 |
0,03030303 |
10,90909091 |
4 |
30 a 39 |
0 |
34,5 |
0 |
0 |
5 |
40 a 49 |
2 |
44,5 |
0,06060606 |
21,81818182 |
6 |
50 a 59 |
4 |
54,5 |
0,12121212 |
43,63636364 |
7 |
60 a 69 |
17 |
64,5 |
0,51515152 |
185,4545455 |
8 |
70 a 79 |
6 |
74,5 |
0,18181818 |
65,45454545 |
9 |
80 a 89 |
2 |
94,5 |
0,06060606 |
21,81818182 |
10 |
90 a 99 |
1 |
94,5 |
0,03030303 |
10,90909091 |
|
|
33 |
|
1 |
|
Tabla 5 Intervalos de clase y frecuencia, para el segundo ejercicio.
Dibujemos en Excel el histograma para la tabla 4
Figura 7 Histograma del ejercicio 2
La función de densidad del ejercicio 2 será:
Figura 8, Función de densidad ejercicio 2
Por ejemplo,
encontremos el porcentaje de muestras menores que xi =60
z= -0,4654
En la tabla buscamos
verticalmente el -0.4 y horizontalmente el 0.07 y la probabilidad o el
porcentaje lo encontramos donde se cruzan la fila y la columna. % = 0,3191
Por ejemplo, encontremos el porcentaje de muestras menores que xi = 69
z= 0,2983
En la tabla buscamos verticalmente el 0,3 y horizontalmente el 0,00 y la probabilidad o el porcentaje lo encontramos donde se cruzan la fila y la columna. % = 0,6179
La probabilidad de encontrar una muestra que se encuentre entre x = 60 y x = 69 la obtenemos:
Restamos los
porcentajes o probabilidades para 69 y para 60 y así obtenemos:0,6179 – 0,3191
= 0,2988
Este número debería equivaler a la frecuencia relativa en el intervalo de 60 a 69. Para obtener la frecuencia absoluta multiplicamos el porcentaje por N=33 y obtenemos f teórica en el intervalo igual a 0,2988x33 = 9,9 y en la tabla 4, del muestreo real, la frecuencia en ese intervalo era igual a 17.
Aunque es alto, se nota
que el muestreo, no se hizo correctamente y se debe repetir, pues los scores,
bien muestreados, exámenes apropiados y razonables, debería ajustarse mejor a
la distribución normal teórica.
En un próximo blog trataré de nuevo el tema estadístico y le agregaré conceptos como la distribución t-Student y la distribución Stanine.
La distribución t Student es una distribución de probabilidad que, estima o conoce el valor de la media de una muestra universal, extraída de una población, que sigue una distribución normal y de la cual no conocemos su desviación típica. Si hacemos una muestra pequeña (N<30), Calculamos su media y desviación estándar. Comparando la media de la muestra con la media universal, encontramos un valor de t y este nos dice que tan cercana o equivocada es la media de la muestra pequeña, respecto de la media universal.
Qué es una calificación
Stanine
Una calificación o score Stanine (estándar nine o estándar 9) es una forma de escalar calificaciones o score a una escala de sólo 9 números. Sirve para convertir cualquier muestreo de calificaciones con decimales a calificaciones de un solo dígito de 0 a 9 sin decimales.
Juan Fernando Sanín E
juanfernando.sanin@gmail.com