lunes, 15 de agosto de 2022

Curtosis - Calidad de una muestra que sigue una distribución normal

 

Jardín, diciembre 2022

 

Curtosis de un muestreo que se rige por la distribución normal

La curtosis es una medida estadística que, determina el grado de concentración que presentan los valores de una variable, alrededor de su media. Es conocida como medida de apuntamiento.

Algunas variables presentan un mayor grado de concentración (menor dispersión) de los valores en torno a su media y otras, por el contrario, presentan un menor grado de concentración (mayor dispersión) de sus valores en torno a su valor central. La curtosis indica lo puntuda (mayor concentración) o lo achatada (menor concentración) que es una distribución, preferiblemente la normal.

Fig. 1 Curtosis

La curtosis también se suele definir así:

Ecuaciones (1) y (2)





Algunos autores no utilizan K sino g, pero definen g =K – 3;      (3) en cuyo caso:

Si g>0 El muestreo el Leptocúrtico

Si g=0 El muestreo es Mesocúrtico

SI g<0 El muestreo es Platicúrtico

Tal cual se muestra en la figura 1

Medidas centrales de la distribución normal

Promedio o media μ=Σxi / N   la suma de todos los valores xi, dividida por N, número de datos.                                                                                                                      (3)

También                 μ = Σfixi /N; la suma de todos los valores, multiplicados por su frecuencia y todo divido por N

Desviación estándar s.d = s

Esta s.d se calcula en Excel con tablas, o directamente con la función de Excel:

 "=DESVESTA(D8:D40), y nos aparece el resultado de la desviación estándar automáticamente" Para este ejemplo D8 es el primer valor de xi y D40 el último.

Veamos un ejemplo, con un muestreo de calificaciones de un examen, en una materia, en un nivel dado en la universidad.

Ejercicio 1

numero dato

Calificación

(x-u) ^4

frecuencia

1

49

99264,3789

1

2

48

78715,3164

2

3

43

19061,2539

3

4

27

326,253906

1

5

38

2075,94141

1

6

37

1093,12891

2

7

35

197,753906

1

8

21

11038,1289

2

9

31

0,00390625

2

10

31

0,00390625

1

11

29

25,6289063

1

12

39

3607,50391

3

13

27

326,253906

1

14

26

759,691406

1

15

23

4632,50391

 

16

32

0,31640625

2

17

20

16018,0664

 

18

19

22518,7539

1

19

43

19061,2539

2

20

27

326,253906

1

21

46

47333,4414

1

22

44

26426,5664

 

23

34

57,1914063

 

24

21

11038,1289

 

25

37

1093,12891

 

26

35

197,753906

 

27

29

25,6289063

 

28

39

3607,50391

1

29

30

2,44140625

 

30

30

2,44140625

1

31

23

4632,50391

 

32

31

0,00390625

 

33

25

1525,87891

 

34

24

2762,81641

 

35

41

9036,87891

 

36

27

326,253906

 

37

16

54085,3164

 

38

20

16018,0664

1

39

33

9,37890625

 

40

20

16018,0664

1

1250

473247,781

u promedio

31,25

s = desv est

8,6698712

N

40


Tabla 1 Una muestra de calificaciones

En Excel podemos encontrar directamente la desviación estándar con la función que indicamos

"= DESVESTA(D8:D40), y nos aparece el resultado de la desviación estándar automáticamente"

La curtosis, calculada con la fórmula (1) nos da 2,0940064, es decir la muestra es Platicúrtica.

Excel también nos da la curtosis directamente, pero como los resultados me dieron diferente, investigué que es lo que calcula Excel y vi que difería un poco de la curtosis, definida en fórmulas (1) y (2), da un valor cercano a g (3) y cumple con la definición de Leptocúrtica, Mesocúrtica y Platicúrtica.

La función de Excel que nos entrega directamente la curtosis.

=CURTOSIS(An:Am)          Donde An es el primer valor de la lista de datos y Am el último valor de la tabla de datos Y n<m

A manera de ejemplo voy a calcular la curtosis con el Excel, para la lista dada

=CURTOSIS(C9:C48) = -0,74024 que igual nos dice que la muestra es Platicúrtica

Que si la comparamos con la g nuestra (K – 3) = -0,9060, igualmente me dice que el muestreo es Platicúrtico.

Dibujar el histograma en Excel

Para dibujar el histograma, debemos agrupar los datos xi, en intervalos de marca de clase y colocar el número de datos que hay en cada intervalo.

 

intervalo

frecuencia

marca

0 a 4

0

2

5 a 9

0

7

10 a 14

0

12

15 a 19

2

17

20 a 24

8

22

25 a 29

8

27

30 a 34

8

32

35 a 39

7

37

40 a 44

4

42

a45 a 49

3

47

40

Tabla 2 (ejercicio 1, agrupado en intervalos)

Para encontrar las frecuencias en cada intervalo, es conveniente reescribir la tabla de los datos xi y ordenarlos de menor a mayor. Se visualiza más fácilmente, el número de calificaciones en cada intervalo.(Excel tiene la función ordenar, cuando se selecciona la tabla)

Vamos a la hoja de Excel (donde tenemos el cuadro anterior)

Crear gráfico de histograma en Excel

Insertar>insertar grafico (escogeremos el primero que aparece)

Puede que nos aparezca directamente seleccionar datos y si no aparece, damos doble clic dentro del gráfico, que ya nos produjo Excel y aparece.

Aparece un cuadro y arriba un cajón que pide el rango de datos. Limpiamos el cajón y seleccionamos la columna de las frecuencias. Aparece el gráfico con un eje vertical con las frecuencias. En el mismo cuadro aparece al lado derecho “editar” le metemos la columna intervalo. Ya apareció el histograma básico, en el eje y las frecuencias y en el eje x los nombres de los intervalos.


Figura 2 Histograma básico

Volvemos al gráfico (seleccionar datos) y a lo que teníamos le decimos agregar.

Aparece un cuadro que se pide que se llene con un nombre (cualquier nombre) y aparece un cajón que pide que le metan valores (limpiamos) y seleccionamos nuevamente las frecuencias. Aparece el siguiente gráfico.




Figura 3 Histograma más elaborado.

En estilos, arriba, escogemos del menú que nos ofrece. Voy a escoger el que une las barritas Si clicamos uno de los dos colores, se seleccionan las barritas de ese color y nos permite cambiar el color del gráfico.

Vamos en esto:




Figura 4 Histograma casi terminado


Figura 6 Función de densidad del ejercicio.

Esta función de densidad es el modelo teórico del muestreo. Como se ve es plana, Platicúrtica.

Si queremos saber cuál es el porcentaje de datos menores que 24, realizaríamos la integral definida entre menos infinito y 24 de la función de densidad. Como esta integral es muy difícil, se han creado tablas, que permiten encontrar ese porcentaje o también la probabilidad de que se encuentre un valor menor que 24.

Estas tablas obligan un cambio de variable así:

z= (xi – μ) /s            (6)

Esta nueva variable z tiene media igual a 0 y los valores de z se ubican en un rango muy cómodo, especialmente entre -5 y 5 y los valores correspondientes a la probabilidad o el % que la variable z sea z<a

Por ejemplo, encontremos el porcentaje de muestras menores que xi =30. (a un valor de z)

z= -0,142

En la tabla buscamos verticalmente el -0.1 y horizontalmente el 0.04 y la probabilidad o el porcentaje lo encontramos donde se cruzan la fila y la columna. % = 0,4482

Por ejemplo, encontremos el porcentaje de muestras menores que xi = 34

z= 0,3719

En la tabla buscamos verticalmente el 0,3 y horizontalmente el 0,07 y la probabilidad o el porcentaje lo encontramos donde se cruzan la fila y la columna. % = 0.6443

La probabilidad de encontrar una muestra que se encuentre entre x = 30 y x = 34.

Restamos los porcentajes o probabilidades para 34 y para 30 y así obtenemos:0,6443 – 0,4482 = 0,1961

Este número equivale a la frecuencia relativa en el intervalo de 30 a 34. Para obtener la frecuencia absoluta multiplicamos el porcentaje por N=40 y obtenemos f teórica en el intervalo igual a 0,1961x40 = 7,84 y en la tabla 2, del muestreo real la frecuencia en ese intervalo era igual a 8.

La distribución teórica se acerca mucho a la curva de densidad de probabilidad normal, específica para este caso.



Tabla 3. Tablas de la distribución z = (xi – μ)/s

Ejercicio 2

Nos dan una lista de 33 calificaciones o scores, desordenadas y sin frecuencia. Lo mejor es copiar la tabla en desorden y luego se ordena de menor a mayor (Excel lo hace sólo), basta seleccionar toda la columna y darle clik y nos aparece la opción ordenar.

En la columna anterior, creamos una numeración ascendente, para ver el número de datos.

Escogemos los intervalos de agrupación.

 

calificación

1

27

2

48

3

48

4

54

5

57

6

59

7

59

8

60

9

61

10

61

11

62

12

63

13

64

14

64

15

65

16

65

17

66

18

67

19

67

20

67

21

68

22

68

23

68

24

68

25

71

26

72

27

72

28

76

29

76

30

78

31

80

32

86

33

94

 


 

Tabla 4 Datos del segundo ejercicio.

Se suma la lista de las calificaciones y dividimos por 33 y obtenemos el valor medio u

μ = 2161/33 = 65,4848485

La desviación estándar la encontramos con Excel d.s = s= 11,78484517

Curtosis de Excel 3,234873442>0            muestreo Leptocúrtica

(La curtosis calculada en Excel, pero por tablas que uno elabora:  g = K – 3 = 2,25)

Con ambas, concluiríamos que la muestra es Leptocúrtica, es decir puntuda, con muchos datos cerca de la media.

Agrupamos los resultados en intervalos apropiados.

intervalo de clase

frecuencia

Marca de clase

Frecuencia relativa

RF*360

1

0 a 9

0

4,5

0

0

2

10 a 19

0

14,5

0

0

3

20 a 29

1

24,5

0,03030303

10,90909091

4

30 a 39

0

34,5

0

0

5

40 a 49

2

44,5

0,06060606

21,81818182

6

50 a 59

4

54,5

0,12121212

43,63636364

7

60 a 69

17

64,5

0,51515152

185,4545455

8

70 a 79

6

74,5

0,18181818

65,45454545

9

80 a 89

2

94,5

0,06060606

21,81818182

10

90 a 99

1

94,5

0,03030303

10,90909091

 

 

33

 

1

 

Tabla 5 Intervalos de clase y frecuencia, para el segundo ejercicio.

Dibujemos en Excel el histograma para la tabla 4



Figura 7 Histograma del ejercicio 2

La función de densidad del ejercicio 2 será:




Figura 8, Función de densidad ejercicio 2

 

Por ejemplo, encontremos el porcentaje de muestras menores que xi =60

 

z= -0,4654

 

En la tabla buscamos verticalmente el -0.4 y horizontalmente el 0.07 y la probabilidad o el porcentaje lo encontramos donde se cruzan la fila y la columna. % = 0,3191

Por ejemplo, encontremos el porcentaje de muestras menores que xi = 69

z= 0,2983

En la tabla buscamos verticalmente el 0,3 y horizontalmente el 0,00 y la probabilidad o el porcentaje lo encontramos donde se cruzan la fila y la columna. % = 0,6179

La probabilidad de encontrar una muestra que se encuentre entre x = 60 y x = 69 la obtenemos:

Restamos los porcentajes o probabilidades para 69 y para 60 y así obtenemos:0,6179 – 0,3191 = 0,2988

Este número debería equivaler a la frecuencia relativa en el intervalo de 60 a 69. Para obtener la frecuencia absoluta multiplicamos el porcentaje por N=33 y obtenemos f teórica en el intervalo igual a 0,2988x33 = 9,9 y en la tabla 4, del muestreo real, la frecuencia en ese intervalo era igual a 17.

Aunque es alto, se nota que el muestreo, no se hizo correctamente y se debe repetir, pues los scores, bien muestreados, exámenes apropiados y razonables, debería ajustarse mejor a la distribución normal teórica.

En un próximo blog trataré de nuevo el tema estadístico y le agregaré conceptos como la distribución t-Student y la distribución Stanine.

La distribución t Student es una distribución de probabilidad que, estima o conoce el valor de la media de una muestra universal, extraída de una población, que sigue una distribución normal y de la cual no conocemos su desviación típica. Si hacemos una muestra pequeña (N<30), Calculamos su media y desviación estándar. Comparando la media de la muestra con la media universal, encontramos un valor de t y este nos dice que tan cercana o equivocada es la media de la muestra pequeña, respecto de la media universal.

Qué es una calificación Stanine

Una calificación o score Stanine (estándar nine o estándar 9) es una forma de escalar calificaciones o score a una escala de sólo 9 números. Sirve para convertir cualquier muestreo de calificaciones con decimales a calificaciones de un solo dígito de 0 a 9 sin decimales.

 

 

 

 

Juan Fernando Sanín E

juanfernando.sanin@gmail.com