Maths: Curtosis - Calidad de una muestra que sigue una distribución normal

Jardín, diciembre 2022

Curtosis de un muestreo que se rige por la distribución normal

La curtosis es una medida estadística que, determina el grado de concentración que presentan los valores de una variable, alrededor de su media. Es conocida como medida de apuntamiento.

Algunas variables presentan un mayor grado de concentración (menor dispersión) de los valores en torno a su media y otras, por el contrario, presentan un menor grado de concentración (mayor dispersión) de sus valores en torno a su valor central. La curtosis indica lo puntuda (mayor concentración) o lo achatada (menor concentración) que es una distribución, preferiblemente la normal.

Fig. 1 Curtosis

La curtosis también se suele definir así:

Ecuaciones (1) y (2)

Algunos autores no utilizan K sino g, pero definen g =K – 3; (3) en cuyo caso:

Si g>0 El muestreo el Leptocúrtico

Si g=0 El muestreo es Mesocúrtico

SI g<0 El muestreo es Platicúrtico

Tal cual se muestra en la figura 1

Medidas centrales de la distribución normal

Promedio o media μ=Σxi / N la suma de todos los valores xi, dividida por N, número de datos. (3)

También μ = Σfixi /N; la suma de todos los valores, multiplicados por su frecuencia y todo divido por N

Desviación estándar s.d = s

Esta s.d se calcula en Excel con tablas, o directamente con la función de Excel:

"=DESVESTA(D8:D40), y nos aparece el resultado de la desviación estándar automáticamente" Para este ejemplo D8 es el primer valor de xi y D40 el último.

Veamos un ejemplo, con un muestreo de calificaciones de un examen, en una materia, en un nivel dado en la universidad.

Ejercicio 1

numero dato	Calificación	(x-u) ^4	frecuencia
1	49	99264,3789	1
2	48	78715,3164	2
3	43	19061,2539	3
4	27	326,253906	1
5	38	2075,94141	1
6	37	1093,12891	2
7	35	197,753906	1
8	21	11038,1289	2
9	31	0,00390625	2
10	31	0,00390625	1
11	29	25,6289063	1
12	39	3607,50391	3
13	27	326,253906	1
14	26	759,691406	1
15	23	4632,50391
16	32	0,31640625	2
17	20	16018,0664
18	19	22518,7539	1
19	43	19061,2539	2
20	27	326,253906	1
21	46	47333,4414	1
22	44	26426,5664
23	34	57,1914063
24	21	11038,1289
25	37	1093,12891
26	35	197,753906
27	29	25,6289063
28	39	3607,50391	1
29	30	2,44140625
30	30	2,44140625	1
31	23	4632,50391
32	31	0,00390625
33	25	1525,87891
34	24	2762,81641
35	41	9036,87891
36	27	326,253906
37	16	54085,3164
38	20	16018,0664	1
39	33	9,37890625
40	20	16018,0664	1
	1250	473247,781

u promedio	31,25	s = desv est	8,6698712

N	40

Tabla 1 Una muestra de calificaciones

En Excel podemos encontrar directamente la desviación estándar con la función que indicamos

"= DESVESTA(D8:D40), y nos aparece el resultado de la desviación estándar automáticamente"

La curtosis, calculada con la fórmula (1) nos da 2,0940064, es decir la muestra es Platicúrtica.

Excel también nos da la curtosis directamente, pero como los resultados me dieron diferente, investigué que es lo que calcula Excel y vi que difería un poco de la curtosis, definida en fórmulas (1) y (2), da un valor cercano a g (3) y cumple con la definición de Leptocúrtica, Mesocúrtica y Platicúrtica.

La función de Excel que nos entrega directamente la curtosis.

=CURTOSIS(An:Am) Donde An es el primer valor de la lista de datos y Am el último valor de la tabla de datos Y n<m

A manera de ejemplo voy a calcular la curtosis con el Excel, para la lista dada

=CURTOSIS(C9:C48) = -0,74024 que igual nos dice que la muestra es Platicúrtica

Que si la comparamos con la g nuestra (K – 3) = -0,9060, igualmente me dice que el muestreo es Platicúrtico.

Dibujar el histograma en Excel

Para dibujar el histograma, debemos agrupar los datos xi, en intervalos de marca de clase y colocar el número de datos que hay en cada intervalo.

intervalo	frecuencia	marca
0 a 4	0	2
5 a 9	0	7
10 a 14	0	12
15 a 19	2	17
20 a 24	8	22
25 a 29	8	27
30 a 34	8	32
35 a 39	7	37
40 a 44	4	42
a45 a 49	3	47
	40

Tabla 2 (ejercicio 1, agrupado en intervalos)

Para encontrar las frecuencias en cada intervalo, es conveniente reescribir la tabla de los datos xi y ordenarlos de menor a mayor. Se visualiza más fácilmente, el número de calificaciones en cada intervalo.(Excel tiene la función ordenar, cuando se selecciona la tabla)

Vamos a la hoja de Excel (donde tenemos el cuadro anterior)

Crear gráfico de histograma en Excel

Insertar>insertar grafico (escogeremos el primero que aparece)

Puede que nos aparezca directamente seleccionar datos y si no aparece, damos doble clic dentro del gráfico, que ya nos produjo Excel y aparece.

Aparece un cuadro y arriba un cajón que pide el rango de datos. Limpiamos el cajón y seleccionamos la columna de las frecuencias. Aparece el gráfico con un eje vertical con las frecuencias. En el mismo cuadro aparece al lado derecho “editar” le metemos la columna intervalo. Ya apareció el histograma básico, en el eje y las frecuencias y en el eje x los nombres de los intervalos.

Figura 2 Histograma básico

Volvemos al gráfico (seleccionar datos) y a lo que teníamos le decimos agregar.

Aparece un cuadro que se pide que se llene con un nombre (cualquier nombre) y aparece un cajón que pide que le metan valores (limpiamos) y seleccionamos nuevamente las frecuencias. Aparece el siguiente gráfico.

Figura 3 Histograma más elaborado.

En estilos, arriba, escogemos del menú que nos ofrece. Voy a escoger el que une las barritas Si clicamos uno de los dos colores, se seleccionan las barritas de ese color y nos permite cambiar el color del gráfico.

Vamos en esto:

Figura 4 Histograma casi terminado

Figura 6 Función de densidad del ejercicio.

Esta función de densidad es el modelo teórico del muestreo. Como se ve es plana, Platicúrtica.

Si queremos saber cuál es el porcentaje de datos menores que 24, realizaríamos la integral definida entre menos infinito y 24 de la función de densidad. Como esta integral es muy difícil, se han creado tablas, que permiten encontrar ese porcentaje o también la probabilidad de que se encuentre un valor menor que 24.

Estas tablas obligan un cambio de variable así:

z= (xi – μ) /s (6)

Esta nueva variable z tiene media igual a 0 y los valores de z se ubican en un rango muy cómodo, especialmente entre -5 y 5 y los valores correspondientes a la probabilidad o el % que la variable z sea z<a

Por ejemplo, encontremos el porcentaje de muestras menores que xi =30. (a un valor de z)

z= -0,142

En la tabla buscamos verticalmente el -0.1 y horizontalmente el 0.04 y la probabilidad o el porcentaje lo encontramos donde se cruzan la fila y la columna. % = 0,4482

Por ejemplo, encontremos el porcentaje de muestras menores que xi = 34

z= 0,3719

En la tabla buscamos verticalmente el 0,3 y horizontalmente el 0,07 y la probabilidad o el porcentaje lo encontramos donde se cruzan la fila y la columna. % = 0.6443

La probabilidad de encontrar una muestra que se encuentre entre x = 30 y x = 34.

Restamos los porcentajes o probabilidades para 34 y para 30 y así obtenemos:0,6443 – 0,4482 = 0,1961

Este número equivale a la frecuencia relativa en el intervalo de 30 a 34. Para obtener la frecuencia absoluta multiplicamos el porcentaje por N=40 y obtenemos f teórica en el intervalo igual a 0,1961x40 = 7,84 y en la tabla 2, del muestreo real la frecuencia en ese intervalo era igual a 8.

La distribución teórica se acerca mucho a la curva de densidad de probabilidad normal, específica para este caso.

Tabla 3. Tablas de la distribución z = (xi – μ)/s

Ejercicio 2

Nos dan una lista de 33 calificaciones o scores, desordenadas y sin frecuencia. Lo mejor es copiar la tabla en desorden y luego se ordena de menor a mayor (Excel lo hace sólo), basta seleccionar toda la columna y darle clik y nos aparece la opción ordenar.

En la columna anterior, creamos una numeración ascendente, para ver el número de datos.

Escogemos los intervalos de agrupación.

	calificación
1	27
2	48
3	48
4	54
5	57
6	59
7	59
8	60
9	61
10	61
11	62
12	63
13	64
14	64
15	65
16	65
17	66
18	67
19	67
20	67
21	68
22	68
23	68
24	68
25	71
26	72
27	72
28	76
29	76
30	78
31	80
32	86
33	94

Tabla 4 Datos del segundo ejercicio.

Se suma la lista de las calificaciones y dividimos por 33 y obtenemos el valor medio u

μ = 2161/33 = 65,4848485

La desviación estándar la encontramos con Excel d.s = s= 11,78484517

Curtosis de Excel 3,234873442>0 muestreo Leptocúrtica

(La curtosis calculada en Excel, pero por tablas que uno elabora: g = K – 3 = 2,25)

Con ambas, concluiríamos que la muestra es Leptocúrtica, es decir puntuda, con muchos datos cerca de la media.

Agrupamos los resultados en intervalos apropiados.

	intervalo de clase	frecuencia	Marca de clase	Frecuencia relativa	RF*360
1	0 a 9	0	4,5	0	0
2	10 a 19	0	14,5	0	0
3	20 a 29	1	24,5	0,03030303	10,90909091
4	30 a 39	0	34,5	0	0
5	40 a 49	2	44,5	0,06060606	21,81818182
6	50 a 59	4	54,5	0,12121212	43,63636364
7	60 a 69	17	64,5	0,51515152	185,4545455
8	70 a 79	6	74,5	0,18181818	65,45454545
9	80 a 89	2	94,5	0,06060606	21,81818182
10	90 a 99	1	94,5	0,03030303	10,90909091
		33		1

Tabla 5 Intervalos de clase y frecuencia, para el segundo ejercicio.

Dibujemos en Excel el histograma para la tabla 4

Figura 7 Histograma del ejercicio 2

La función de densidad del ejercicio 2 será:

Figura 8, Función de densidad ejercicio 2

Por ejemplo, encontremos el porcentaje de muestras menores que xi =60

z= -0,4654

En la tabla buscamos verticalmente el -0.4 y horizontalmente el 0.07 y la probabilidad o el porcentaje lo encontramos donde se cruzan la fila y la columna. % = 0,3191

Por ejemplo, encontremos el porcentaje de muestras menores que xi = 69

z= 0,2983

En la tabla buscamos verticalmente el 0,3 y horizontalmente el 0,00 y la probabilidad o el porcentaje lo encontramos donde se cruzan la fila y la columna. % = 0,6179

La probabilidad de encontrar una muestra que se encuentre entre x = 60 y x = 69 la obtenemos:

Restamos los porcentajes o probabilidades para 69 y para 60 y así obtenemos:0,6179 – 0,3191 = 0,2988

Este número debería equivaler a la frecuencia relativa en el intervalo de 60 a 69. Para obtener la frecuencia absoluta multiplicamos el porcentaje por N=33 y obtenemos f teórica en el intervalo igual a 0,2988x33 = 9,9 y en la tabla 4, del muestreo real, la frecuencia en ese intervalo era igual a 17.

Aunque es alto, se nota que el muestreo, no se hizo correctamente y se debe repetir, pues los scores, bien muestreados, exámenes apropiados y razonables, debería ajustarse mejor a la distribución normal teórica.

En un próximo blog trataré de nuevo el tema estadístico y le agregaré conceptos como la distribución t-Student y la distribución Stanine.

La distribución t Student es una distribución de probabilidad que, estima o conoce el valor de la media de una muestra universal, extraída de una población, que sigue una distribución normal y de la cual no conocemos su desviación típica. Si hacemos una muestra pequeña (N<30), Calculamos su media y desviación estándar. Comparando la media de la muestra con la media universal, encontramos un valor de t y este nos dice que tan cercana o equivocada es la media de la muestra pequeña, respecto de la media universal.

Qué es una calificación Stanine

Una calificación o score Stanine (estándar nine o estándar 9) es una forma de escalar calificaciones o score a una escala de sólo 9 números. Sirve para convertir cualquier muestreo de calificaciones con decimales a calificaciones de un solo dígito de 0 a 9 sin decimales.

Juan Fernando Sanín E

Maths

lunes, 15 de agosto de 2022

Curtosis - Calidad de una muestra que sigue una distribución normal

juanfernando.sanin@gmail.com

No hay comentarios:

Publicar un comentario