Comprender los intervalos de confianza con Python

Reeditado por Platón

seguidores: 0

Este artículo fue publicado como parte del Blogatón de ciencia de datos.

Tabla de contenidos.

Introducción
Intervalos de confianza con estadística Z
Interpretación de los intervalos de confianza
Supuestos para IC usando z-statistic
Intervalos de confianza con estadístico t
Supuestos para IC usando t-statistic
Hacer un intervalo t con datos apareados
Valor z vs valor t: ¿cuándo usar qué?
Intervalos de confianza con python
Nota final

Introducción

Cada vez que resolvemos un problema estadístico, nos preocupa la estimación de los parámetros de la población, pero la mayoría de las veces es casi imposible calcular los parámetros de la población. En cambio, lo que hacemos es tomar muestras aleatorias de la población y calcular las estadísticas de la muestra esperando aproximarnos a los parámetros de la población. Pero, ¿cómo sabemos si las muestras son verdaderas representantes de la población o cuánto se desvían estas estadísticas muestrales de los parámetros de la población? Aquí es donde los intervalos de confianza entran en escena. Entonces, ¿cuáles son estos intervalos? El intervalo de confianza es un rango de valores que van por encima y por debajo de las estadísticas de la muestra o también podemos definirlo como la probabilidad de que un rango de valores alrededor de la estadística de la muestra contenga el parámetro de población real.

Intervalos de confianza con estadística Z

Antes de profundizar en el tema, familiaricémonos con algunas terminologías estadísticas.

población: Es el conjunto de todos los individuos semejantes. Por ejemplo, la población de una ciudad, los estudiantes de una universidad, etc.

muestra: Es un pequeño conjunto de individuos similares extraídos de la población. De manera similar, una muestra aleatoria es una muestra extraída al azar de la población.

parámetros: Media(mu), desviaciones estándar(sigma), proporción(p) derivada de la población.

estadística: media (barra x), desviación estándar (S), proporciones (p^) relacionadas con las muestras.

Puntaje Z: es la distancia de cualquier punto de datos sin procesar en una distribución normal desde la media normalizada por la desviación estándar. Dada por: x-mu/sigma

Muy bien, ahora estamos listos para profundizar en el concepto de intervalos de confianza. Por alguna razón, creo que es mucho mejor comprender los conceptos a través de ejemplos relacionados en lugar de definiciones matemáticas en bruto. Entonces empecemos.

Suponga que vive en una ciudad de 100,000 habitantes y hay elecciones a la vuelta de la esquina. Como encuestador, debes pronosticar quién va a ganar las elecciones, ya sea el partido azul o el amarillo. Entonces, verá que es casi imposible recopilar información de toda la población, por lo que elige 100 personas al azar. Al final de la encuesta, encontró que el 62% de las personas votarán por el amarillo. Ahora la pregunta es si debemos concluir que el amarillo va a ganar con una probabilidad de victoria del 62 % o el 62 % de toda la población votará por el amarillo. Bueno, la respuesta es no. No sabemos con seguridad qué tan lejos está nuestra estimación del parámetro verdadero, si tomamos otra muestra el resultado puede ser 58% o 65%. Entonces, lo que haremos en su lugar es encontrar un rango de valores alrededor de nuestra estadística de muestra que muy probablemente capturará la verdadera proporción de la población. Aquí, la proporción se refiere al porcentaje de

la imagen pertenece al autor

Ahora, si tomamos cien de esas muestras y graficamos la proporción muestral de cada muestra, obtendremos una distribución normal de proporciones muestrales y la media de la distribución será el valor más aproximado de la proporción poblacional. Y nuestra estimación podría estar en cualquier parte de la curva de distribución. Según la regla de 3 sigma, sabemos que alrededor del 95% de las variables aleatorias se encuentran dentro de 2 desviaciones estándar de la media de la distribución. Entonces, podemos concluir que la probabilidad de que p^ está dentro de 2 desviaciones estándar de p es 95%. O también podemos afirmar que la probabilidad de que p esté dentro de 2 desviaciones estándar por debajo y por encima de p^ también es del 95%. Estas dos afirmaciones son efectivamente equivalentes. Estos dos puntos por debajo y por encima de p^ son nuestros intervalos de confianza.

la imagen pertenece al autor

Si de alguna manera podemos encontrar el sigma, podemos calcular nuestro intervalo requerido. Pero sigma aquí es el parámetro de población y sabemos que a menudo es casi imposible de calcular, por lo que en su lugar utilizaremos estadísticas de muestra, es decir, error estándar. Esto se da como

$SE = \sqrt{\hat{p}(1- \hat{p})/n}$

donde p^= proporción muestral, n=número de muestras

ES =√(0.62 . 0.38/100) = 0.05

entonces, 2xSE = 0.1

El intervalo de confianza para nuestros datos es (0.62-0.1,0.62, 0.1+0.52,0.72) o (2, 95). Como hemos tomado XNUMXxSE, esto se traduce en un intervalo de confianza del XNUMX%.

Ahora, la pregunta es ¿y si queremos crear un intervalo de confianza del 92 %? En el ejemplo anterior, multiplicamos 2 con SE para construir un intervalo de confianza del 95 %, este 2 es el puntaje z para un intervalo de confianza del 95 % (el valor exacto es 1.96) y este valor se puede encontrar en una tabla z. El valor crítico de z para un intervalo de confianza del 92 % es 1.75. Referirse a así artículo para una mejor comprensión de z-score y z-table.

El intervalo viene dado por: (p^ + z*.SE , p^-z*.SE).

Si en lugar de la proporción muestral se da la media muestral, el error estándar será sigma/raíz cuadrada(n). aquí sigma es la desviación estándar de la población, ya que a menudo no tenemos, usamos la desviación estándar de la muestra en su lugar. Pero a menudo se observa que este tipo de estimación en la que se da la media del resultado tiende a estar un poco sesgada. Entonces, en casos como este, se prefiere usar la estadística t en lugar de la estadística z.

La fórmula general para un intervalo de confianza con estadísticos z viene dada por

$statistic \pm z^* . \sigma _ s$

Aquí, la estadística se refiere a la media de la muestra o a la proporción de la muestra. sigma_sson la desviación estándar de la población.

Interpretación de los intervalos de confianza

Es muy importante interpretar correctamente los intervalos de confianza. Considere el ejemplo anterior del encuestador en el que calculamos que nuestro intervalo de confianza del 95 % es (0.52,0.62, 95). ¿Qué significa eso? Bien, un intervalo de confianza del 95 % significa que si extraemos n muestras de la población, el 95 % de las veces el intervalo derivado contendrá la verdadera proporción de la población. Recuerde que un intervalo de confianza del 95 % no significa que haya un 90 % de probabilidad de que el intervalo contenga la verdadera proporción de la población. Por ejemplo, para un intervalo de confianza del 10 %, si extraemos 9 muestras de una población, 10 de cada XNUMX veces dicho intervalo contendrá un parámetro de población real. Mire la imagen de abajo para una mejor comprensión.

Interpretación del intervalo de confianza

la imagen pertenece al autor

Supuestos para los intervalos de confianza usando la estadística Z

Hay ciertos supuestos que debemos buscar para construir un intervalo de confianza válido usando la estadística z.

Muestra aleatoria: las muestras deben ser aleatorias. Existen diferentes métodos de muestreo, como el muestreo estratificado, el muestreo aleatorio simple, el muestreo por conglomerados para obtener muestras aleatorias.
Condición normal: Los datos deben cumplir esta condición np^>=10 y n.(1-p^)>=10. Eso significa esencialmente que nuestra distribución muestral de las medias muestrales debe ser normal, no sesgada en ninguno de los lados.
Independiente: Las muestras deben ser independientes. El número de muestras debe ser menor o igual al 10% de la población total o si el muestreo se realiza con reposición.

Intervalos de confianza con estadístico T

¿Qué pasa si el tamaño de la muestra es relativamente pequeño y la desviación estándar de la población no se da o no se puede suponer? ¿Cómo construimos un intervalo de confianza? bueno, ahí es donde entra en juego la estadística t. La fórmula básica para encontrar el intervalo de confianza sigue siendo la misma con solo z* reemplazado por t*. La fórmula general está dada por

$statistic \pm t^* . S / \sqrt{n}$

donde S = desviación estándar de la muestra, n = número de muestras

Suponga que organiza una fiesta y desea estimar el consumo promedio de cerveza de sus invitados. Entonces, obtiene una muestra aleatoria de 20 individuos y mide el consumo de cerveza. Los datos de la muestra son simétricos con una media de 0 ml y una desviación estándar de 1200 ml. Entonces, ahora desea construir un intervalo de confianza del 120%.

Entonces, tenemos la desviación estándar de la muestra, el número de muestras y la media de la muestra. Todo lo que necesitamos es t*. Entonces, t* para un intervalo de confianza del 95% con un grado de libertad de 19(n-1 = 20-1) es 2.093. Entonces, nuestro intervalo requerido después del cálculo es (1256.16, 1143.83) con un margen de error de 56.16. Referirse a así video para saber como leer la t-table.

Supuestos para IC utilizando la estadística T

Similar al caso de la estadística z aquí, en el caso de la estadística t también hay algunas condiciones que debemos tener en cuenta en los datos dados.

La muestra debe ser aleatoria.
La muestra debe ser normal. Para que sea normal, el tamaño de la muestra debe ser mayor o igual a 30 o si el conjunto de datos principal, es decir, la población, es aproximadamente normal. O si el tamaño de la muestra es inferior a 30, la distribución debe ser aproximadamente simétrica.
Las observaciones individuales deben ser independientes. Eso significa que sigue la regla del 10% o el muestreo se realiza con reemplazo.

Hacer un intervalo T para datos emparejados

Hasta ahora solo hemos utilizado datos de una muestra. Ahora veremos cómo podemos construir un intervalo t para datos apareados. En datos apareados, hacemos dos observaciones sobre el mismo individuo. Por ejemplo, comparar las calificaciones de los estudiantes antes y después de la prueba o datos sobre el efecto de un fármaco y un placebo en un grupo de personas. En datos apareados, encontramos la diferencia entre las dos observaciones en la 3.ª columna. Como de costumbre, veremos un ejemplo para comprender también este concepto,

P. Un maestro trató de evaluar el efecto de un nuevo plan de estudios en el resultado de la prueba. A continuación se muestran los resultados de las observaciones.

la imagen pertenece al autor

Como pretendemos encontrar intervalos para la diferencia de medias, solo necesitamos las estadísticas para las diferencias. Usaremos la misma fórmula que usamos antes.

estadístico +- (valor crítico o valor t) (desviación estándar del estadístico)

$\bar{x} _{d} \pm t^* . S_{d} / \sqrt{n}$

x_d = media de la diferencia, S_d = desviación estándar de la muestra, para un IC del 95 % con un grado de libertad de 5 t* viene dado por 2.57. El margen de error = 0.97 y el intervalo de confianza (4.18,6.13).

Interpretación: A partir de las estimaciones anteriores, como podemos ver, el intervalo de confianza no contiene valores cero o negativos. Por lo tanto, podemos concluir que el nuevo plan de estudios tuvo un impacto positivo en el desempeño de los estudiantes en las pruebas. Si solo tuviera valores negativos, entonces podríamos decir que el currículo tuvo un impacto negativo. O si contenía cero, entonces podría existir la posibilidad de que la diferencia fuera cero o ningún efecto del currículo en los resultados de las pruebas.

Valor Z frente a valor T

Hay mucha confusión al principio sobre cuándo usar qué. La regla general es cuando el tamaño de la muestra es >= 30 y se sabe que la desviación estándar de la población utiliza estadísticas z. En caso de que el tamaño de la muestra sea < 30, use la estadística t. En la vida real, no tenemos parámetros de población, por lo que optaremos por z o t en función del tamaño de la muestra.

Con muestras más pequeñas (n<30) no se aplica el teorema del límite central y se utiliza otra distribución llamada distribución t de Student. La distribución t es similar a la distribución normal pero toma diferentes formas dependiendo del tamaño de la muestra. En lugar de valores z, se utilizan valores t que son mayores para muestras más pequeñas, lo que produce un mayor margen de error. Como un tamaño de muestra pequeño será menos preciso.

Intervalos de confianza con Python

Python tiene una amplia biblioteca que admite todo tipo de cálculos estadísticos que nos facilitan un poco la vida. En esta sección, veremos los datos sobre los hábitos de sueño de los niños pequeños. Los 20 participantes de estas observaciones estaban sanos, se comportaban normalmente y no tenían ningún trastorno del sueño. Nuestro objetivo es analizar la hora de acostarse de los niños pequeños que duermen y no duermen la siesta.

Referencia: Akacem LD, Simpkin CT, Carskadon MA, Wright KP Jr, Jenni OG, Achermann P, et al. (2015) La sincronización del reloj circadiano y el sueño difieren entre los niños pequeños que duermen la siesta y los que no la duermen. PLoS ONE 10(4): e0125181. https://doi.org/10.1371/journal.pone.0125181

Estaremos importando bibliotecas que necesitaremos

import numpy as np import pandas as pd from scipy.stats import t pd.set_option('display.max_columns', 30) # establecido para poder ver todas las columnas del DataFrame importar matemáticas

df = pd.read_csv(nap_no_nap.csv) #lectura de datos

df.head ()

Cree dos intervalos de confianza del 95 % para la hora promedio de acostarse, uno para los niños pequeños que duermen la siesta y otro para los niños pequeños que no. Primero, aislaremos la columna 'hora de dormir por la noche' para aquellos que duermen la siesta en una nueva variable y aquellos que no duermen la siesta en otra nueva variable. La hora de acostarse aquí está decimalizada.

bedtime_nap = df['night bedtime'].loc[df['siesta'] == 1] bedtime_no_nap = df['night bedtime'].loc[df['siesta'] == 0]

imprimir (len (hora de acostarse_siesta))

imprimir (len (hora de acostarse_no_siesta))

salida: 15 n 5

Ahora, encontraremos la hora de acostarse promedio de la muestra para nap y no_nap.

siesta_media_hora de acostarse = hora de dormir_siesta.media() #20.304 no_siesta_media_hora de acostarse = hora de dormir_no_siesta.media() #19.59

Ahora, encontraremos la desviación estándar de la muestra para X_siesta y X_{sin siesta}

siesta_s_hora de acostarse = np.std(hora de acostarse_siesta, ddof=1) no_siesta_hora de acostarse = np.std(hora de acostarse_sin_siesta, ddof=1)

Nota: El parámetro ddof se establece en 1 para la desviación estándar de la muestra o, de lo contrario, se convertirá en la desviación estándar de la población.

Ahora, encontraremos el error estándar de la muestra para X_siesta y X_{sin siesta}

nap_se_mean_bedtime = siesta_s_bedtime/math.sqrt(len(bedtime_siesta)) #0.1526 no_nap_se_mean_bedtime = no_siesta_s_bedtime/math.sqrt(len(bedtime_no_siesta)) #0.2270

Hasta aquí todo bien, ahora que el tamaño de la muestra es pequeño y no tenemos una desviación estándar de la proporción de la población, usaremos el valor t*. Una forma de encontrar el valor de t* es usando scipy.estadsticas t.ppf función. Los argumentos para t.ppf() son q = porcentaje, df = grado de libertad, escala = desviación estándar, loc = media. Como la distribución t es simétrica para un intervalo de confianza del 95%, q será 0.975. Consulte así para más información sobre t.ppf().

siesta_t_estrella = t.ppf(0.975,df=14) #2.14 no_siesta_t_estrella = t.ppf(0.975,df=5) #2.57

Ahora, sumaremos las piezas para finalmente construir nuestro intervalo de confianza.

siesta_ci_plus = siesta_media_hora de acostarse + siesta_t_estrella*siesta_se_hora de acostarse

siesta_ci_minus = siesta_media_hora de acostarse – siesta_t_estrella*siesta_se_hora de acostarse

imprimir (nap_ci_minus, nap_ci_plus)

no_nap_ci_plus = no_nap_mean_time_bedtime + no_nap_t_star*nap_se_bedtime

no_nap_ci_minus = no_nap_mean_bedtime – no_nap_t_star*nap_se_bedtime

imprimir (no_nap_ci_minus, no_nap_ci_plus)

salida: 19.976680775477412 20.631319224522585 18.95974084563192 20.220259154368087

Interpretación:

De los resultados anteriores, concluimos que estamos 95% seguros de que la hora promedio de acostarse para los niños pequeños que duermen la siesta es entre las 19.98:20.63 y las 18.96:20.22 (pm), mientras que para los niños pequeños que no duermen la siesta es entre las XNUMX:XNUMX y las XNUMX:XNUMX (pm). Estos resultados están de acuerdo con nuestra expectativa de que si toma una siesta durante el día, dormirá hasta tarde en la noche.

notas finales

Entonces, todo esto se trataba de intervalos de confianza simples usando valores z y t. De hecho, es un concepto importante para saber en el caso de cualquier estudio estadístico. Un gran método estadístico inferencial para estimar parámetros de población a partir de datos de muestra. Los intervalos de confianza también están vinculados a la prueba de hipótesis de que, para un IC del 95 %, deja un 5 % de espacio para las anomalías. Si la hipótesis nula cae dentro del intervalo de confianza, entonces el valor p será grande y no podremos rechazar la hipótesis nula. Por el contrario, si cae más allá, tendremos pruebas suficientes para rechazar la hipótesis nula y aceptar hipótesis alternativas.

Espero que les haya gustado el artículo y feliz año nuevo (:

Los medios que se muestran en este artículo no son propiedad de Analytics Vidhya y se utilizan a discreción del autor.