Jardín, diciembre 2022
Curtosis de un muestreo que se rige por la distribución
normal
La curtosis es una medida estadística
que, determina el grado de concentración que presentan los valores de una
variable, alrededor de su media. Es conocida como medida de apuntamiento.
Algunas variables presentan un mayor grado de concentración
(menor dispersión) de los valores en torno a su media y otras, por el
contrario, presentan un menor grado de concentración (mayor dispersión) de sus
valores en torno a su valor central. La curtosis indica lo puntuda (mayor
concentración) o lo achatada (menor concentración) que es una distribución,
preferiblemente la normal.
Fig. 1 Curtosis
La curtosis también se
suele definir así:
Ecuaciones (1) y (2)
Algunos autores no utilizan K sino g, pero definen g =K – 3;
(3) en cuyo caso:
Si g>0 El muestreo
el Leptocúrtico
Si g=0 El muestreo es
Mesocúrtico
SI g<0 El muestreo
es Platicúrtico
Tal cual se muestra en
la figura 1
Medidas centrales de la
distribución normal
Promedio o media μ=Σxi / N la suma de todos los valores xi, dividida
por N, número de datos.
(3)
También μ = Σfixi /N; la suma de
todos los valores, multiplicados por su frecuencia y todo divido por N
Desviación estándar s.d
= s
Esta s.d se calcula en
Excel con tablas, o directamente con la función de Excel: "=DESVESTA(D8:D40),
y nos aparece el resultado de la desviación estándar automáticamente" Para
este ejemplo D8 es el primer valor de xi y D40 el último.
Veamos un ejemplo, con
un muestreo de calificaciones de un examen, en una materia, en un nivel dado en
la universidad.
Ejercicio 1
numero dato
|
Calificación
|
(x-u) ^4
|
frecuencia
|
1
|
49
|
99264,3789
|
1
|
2
|
48
|
78715,3164
|
2
|
3
|
43
|
19061,2539
|
3
|
4
|
27
|
326,253906
|
1
|
5
|
38
|
2075,94141
|
1
|
6
|
37
|
1093,12891
|
2
|
7
|
35
|
197,753906
|
1
|
8
|
21
|
11038,1289
|
2
|
9
|
31
|
0,00390625
|
2
|
10
|
31
|
0,00390625
|
1
|
11
|
29
|
25,6289063
|
1
|
12
|
39
|
3607,50391
|
3
|
13
|
27
|
326,253906
|
1
|
14
|
26
|
759,691406
|
1
|
15
|
23
|
4632,50391
|
|
16
|
32
|
0,31640625
|
2
|
17
|
20
|
16018,0664
|
|
18
|
19
|
22518,7539
|
1
|
19
|
43
|
19061,2539
|
2
|
20
|
27
|
326,253906
|
1
|
21
|
46
|
47333,4414
|
1
|
22
|
44
|
26426,5664
|
|
23
|
34
|
57,1914063
|
|
24
|
21
|
11038,1289
|
|
25
|
37
|
1093,12891
|
|
26
|
35
|
197,753906
|
|
27
|
29
|
25,6289063
|
|
28
|
39
|
3607,50391
|
1
|
29
|
30
|
2,44140625
|
|
30
|
30
|
2,44140625
|
1
|
31
|
23
|
4632,50391
|
|
32
|
31
|
0,00390625
|
|
33
|
25
|
1525,87891
|
|
34
|
24
|
2762,81641
|
|
35
|
41
|
9036,87891
|
|
36
|
27
|
326,253906
|
|
37
|
16
|
54085,3164
|
|
38
|
20
|
16018,0664
|
1
|
39
|
33
|
9,37890625
|
|
40
|
20
|
16018,0664
|
1
|
|
1250
|
473247,781
|
|
|
|
|
|
u promedio
|
31,25
|
s = desv est
|
8,6698712
|
|
|
|
N
|
40
|
|
|
Tabla 1 Una muestra
de calificaciones
En Excel podemos
encontrar directamente la desviación estándar con la función que indicamos
"= DESVESTA(D8:D40),
y nos aparece el resultado de la desviación estándar automáticamente"
La curtosis, calculada
con la fórmula (1) nos da 2,0940064, es decir la muestra es
Platicúrtica.
Excel también nos da la
curtosis directamente, pero como los resultados me dieron diferente, investigué
que es lo que calcula Excel y vi que difería un poco de la curtosis, definida
en fórmulas (1) y (2), da un valor cercano a g (3) y cumple con la definición
de Leptocúrtica, Mesocúrtica y Platicúrtica.
La función de Excel que
nos entrega directamente la curtosis.
=CURTOSIS(An:Am) Donde An es el primer valor de la
lista de datos y Am el último valor de la tabla de datos Y n<m
A manera de ejemplo voy
a calcular la curtosis con el Excel, para la lista dada
=CURTOSIS(C9:C48) =
-0,74024 que igual nos dice que la muestra es Platicúrtica
Que si la comparamos
con la g nuestra (K – 3) = -0,9060, igualmente me dice que el muestreo es
Platicúrtico.
Dibujar el histograma en Excel
Para dibujar el
histograma, debemos agrupar los datos xi, en intervalos de marca de clase y
colocar el número de datos que hay en cada intervalo.
intervalo
|
frecuencia
|
marca
|
0 a 4
|
0
|
2
|
5 a 9
|
0
|
7
|
10 a 14
|
0
|
12
|
15 a 19
|
2
|
17
|
20 a 24
|
8
|
22
|
25 a 29
|
8
|
27
|
30 a 34
|
8
|
32
|
35 a 39
|
7
|
37
|
40 a 44
|
4
|
42
|
a45 a 49
|
3
|
47
|
|
40
|
|
Tabla 2 (ejercicio 1,
agrupado en intervalos)
Para encontrar las
frecuencias en cada intervalo, es conveniente reescribir la tabla de los datos
xi y ordenarlos de menor a mayor. Se visualiza más fácilmente, el número de
calificaciones en cada intervalo.(Excel tiene la función ordenar, cuando se
selecciona la tabla)
Vamos a la hoja de
Excel (donde tenemos el cuadro anterior)
Crear gráfico de histograma en Excel
Insertar>insertar
grafico (escogeremos el primero que aparece)
Puede que nos aparezca directamente
seleccionar datos y si no aparece, damos doble clic dentro del gráfico, que ya
nos produjo Excel y aparece.
Aparece un cuadro y
arriba un cajón que pide el rango de datos. Limpiamos el cajón y seleccionamos
la columna de las frecuencias. Aparece el gráfico con un eje vertical con las
frecuencias. En el mismo cuadro aparece al lado derecho “editar” le metemos la
columna intervalo. Ya apareció el histograma básico, en el eje y las
frecuencias y en el eje x los nombres de los intervalos.
Figura 2 Histograma
básico
Volvemos al gráfico
(seleccionar datos) y a lo que teníamos le decimos agregar.
Aparece un cuadro que
se pide que se llene con un nombre (cualquier nombre) y aparece un cajón que
pide que le metan valores (limpiamos) y seleccionamos nuevamente las
frecuencias. Aparece el siguiente gráfico.
Figura 3 Histograma
más elaborado.
En estilos, arriba,
escogemos del menú que nos ofrece. Voy a escoger el que une las barritas Si clicamos uno de los dos colores, se seleccionan las barritas de ese color y nos
permite cambiar el color del gráfico.
Vamos en esto:
Figura 4 Histograma
casi terminado
Figura 6 Función de
densidad del ejercicio.
Esta función de
densidad es el modelo teórico del muestreo. Como se ve es plana, Platicúrtica.
Si queremos saber cuál
es el porcentaje de datos menores que 24, realizaríamos la integral definida
entre menos infinito y 24 de la función de densidad. Como esta integral es muy
difícil, se han creado tablas, que permiten encontrar ese porcentaje o también
la probabilidad de que se encuentre un valor menor que 24.
Estas tablas obligan un
cambio de variable así:
z= (xi – μ) /s (6)
Esta nueva variable z tiene
media igual a 0 y los valores de z se ubican en un rango muy cómodo,
especialmente entre -5 y 5 y los valores correspondientes a la probabilidad o
el % que la variable z sea z<a
Por ejemplo,
encontremos el porcentaje de muestras menores que xi =30. (a un valor de z)
z= -0,142
En la tabla buscamos
verticalmente el -0.1 y horizontalmente el 0.04 y la probabilidad o el
porcentaje lo encontramos donde se cruzan la fila y la columna. % = 0,4482
Por ejemplo,
encontremos el porcentaje de muestras menores que xi = 34
z= 0,3719
En la tabla buscamos
verticalmente el 0,3 y horizontalmente el 0,07 y la probabilidad o el
porcentaje lo encontramos donde se cruzan la fila y la columna. % = 0.6443
La probabilidad de
encontrar una muestra que se encuentre entre x = 30 y x = 34.
Restamos los
porcentajes o probabilidades para 34 y para 30 y así obtenemos:0,6443 – 0,4482
= 0,1961
Este número equivale a
la frecuencia relativa en el intervalo de 30 a 34. Para obtener la frecuencia
absoluta multiplicamos el porcentaje por N=40 y obtenemos f teórica en el
intervalo igual a 0,1961x40 = 7,84 y en la tabla 2, del muestreo real la
frecuencia en ese intervalo era igual a 8.
La distribución teórica
se acerca mucho a la curva de densidad de probabilidad normal, específica para
este caso.
Tabla 3. Tablas de la
distribución z = (xi – μ)/s
Ejercicio 2
Nos dan una lista de 33
calificaciones o scores, desordenadas y sin frecuencia. Lo mejor es copiar la tabla
en desorden y luego se ordena de menor a mayor (Excel lo hace sólo), basta
seleccionar toda la columna y darle clik y nos aparece la opción ordenar.
En la columna anterior,
creamos una numeración ascendente, para ver el número de datos.
Escogemos los
intervalos de agrupación.
|
calificación
|
1
|
27
|
2
|
48
|
3
|
48
|
4
|
54
|
5
|
57
|
6
|
59
|
7
|
59
|
8
|
60
|
9
|
61
|
10
|
61
|
11
|
62
|
12
|
63
|
13
|
64
|
14
|
64
|
15
|
65
|
16
|
65
|
17
|
66
|
18
|
67
|
19
|
67
|
20
|
67
|
21
|
68
|
22
|
68
|
23
|
68
|
24
|
68
|
25
|
71
|
26
|
72
|
27
|
72
|
28
|
76
|
29
|
76
|
30
|
78
|
31
|
80
|
32
|
86
|
33
|
94
|
|
|
Tabla 4 Datos del
segundo ejercicio.
Se suma la lista de las
calificaciones y dividimos por 33 y obtenemos el valor medio u
μ
= 2161/33 = 65,4848485
La desviación estándar la encontramos con Excel d.s = s= 11,78484517
Curtosis de Excel 3,234873442>0 muestreo Leptocúrtica
(La curtosis calculada en Excel, pero por tablas que uno elabora: g = K – 3 = 2,25)
Con ambas, concluiríamos que la muestra es Leptocúrtica, es decir
puntuda, con muchos datos cerca de la media.
Agrupamos los resultados en intervalos apropiados.
|
intervalo
de clase
|
frecuencia
|
Marca de
clase
|
Frecuencia
relativa
|
RF*360
|
1
|
0 a 9
|
0
|
4,5
|
0
|
0
|
2
|
10 a 19
|
0
|
14,5
|
0
|
0
|
3
|
20 a 29
|
1
|
24,5
|
0,03030303
|
10,90909091
|
4
|
30 a 39
|
0
|
34,5
|
0
|
0
|
5
|
40 a 49
|
2
|
44,5
|
0,06060606
|
21,81818182
|
6
|
50 a 59
|
4
|
54,5
|
0,12121212
|
43,63636364
|
7
|
60 a 69
|
17
|
64,5
|
0,51515152
|
185,4545455
|
8
|
70 a 79
|
6
|
74,5
|
0,18181818
|
65,45454545
|
9
|
80 a 89
|
2
|
94,5
|
0,06060606
|
21,81818182
|
10
|
90 a 99
|
1
|
94,5
|
0,03030303
|
10,90909091
|
|
|
33
|
|
1
|
|
Tabla 5 Intervalos de clase y frecuencia, para el segundo ejercicio.
Dibujemos en Excel el histograma para la tabla 4
Figura 7 Histograma del ejercicio 2
La función de densidad del ejercicio 2 será:
Figura 8, Función de densidad ejercicio 2
Por ejemplo,
encontremos el porcentaje de muestras menores que xi =60
z= -0,4654
En la tabla buscamos
verticalmente el -0.4 y horizontalmente el 0.07 y la probabilidad o el
porcentaje lo encontramos donde se cruzan la fila y la columna. % = 0,3191
Por ejemplo,
encontremos el porcentaje de muestras menores que xi = 69
z= 0,2983
En la tabla buscamos
verticalmente el 0,3 y horizontalmente el 0,00 y la probabilidad o el
porcentaje lo encontramos donde se cruzan la fila y la columna. % = 0,6179
La probabilidad de
encontrar una muestra que se encuentre entre x = 60 y x = 69 la obtenemos:
Restamos los
porcentajes o probabilidades para 69 y para 60 y así obtenemos:0,6179 – 0,3191
= 0,2988
Este número debería
equivaler a la frecuencia relativa en el intervalo de 60 a 69. Para obtener la
frecuencia absoluta multiplicamos el porcentaje por N=33 y obtenemos f teórica
en el intervalo igual a 0,2988x33 = 9,9 y en la tabla 4, del muestreo real, la
frecuencia en ese intervalo era igual a 17.
Aunque es alto, se nota
que el muestreo, no se hizo correctamente y se debe repetir, pues los scores,
bien muestreados, exámenes apropiados y razonables, debería ajustarse mejor a
la distribución normal teórica.
En un próximo blog
trataré de nuevo el tema estadístico y le agregaré conceptos como la
distribución t-Student y la distribución Stanine.
La distribución t Student es
una distribución de probabilidad que, estima o conoce el valor de la media de
una muestra universal, extraída de una población, que sigue una distribución
normal y de la cual no conocemos su desviación típica. Si hacemos una muestra
pequeña (N<30), Calculamos su media y desviación estándar. Comparando la
media de la muestra con la media universal, encontramos un valor de t y este
nos dice que tan cercana o equivocada es la media de la muestra pequeña,
respecto de la media universal.
Qué es una calificación
Stanine
Una calificación o score Stanine (estándar nine o
estándar 9) es una forma de escalar calificaciones o score a una escala de sólo
9 números. Sirve para convertir cualquier muestreo de calificaciones con
decimales a calificaciones de un solo dígito de 0 a 9 sin decimales.
Juan Fernando Sanín E