Teorema de la semana: el del límite central

Después de algunas semanas de ausencia, regresa el teorema de la semana. En esta ocasión hablaremos del teorema del límite central.

Aunque sin muchos detalles, habíamos mencionado el teorema del límite central en este blog cuando discutimos un supuesto método de apuestas infalibles. Al comparar las ganancias promedio simulando muchos juegos, obtuvimos la gráfica

 Vemos que la gráfica aproxima una curva simétrica, concentrada en el centro y que decrece suavemente hacia los extremos, de hecho, muy parecida a la gráfica de la función de densidad de la distribución normal, también conocida como la gaussiana, dada por la función

\dfrac{1}{\sqrt{2\pi}} e^{-x^2/2},

con gráfica

La historia de la distribución normal se remonta al siglo XVIII. El matemático francés Abraham De Moivre fue el primero en observar que la normal aproximaba la distribución de resultados de lanzar una moneda. Luego Pierre Simon Laplace, casi 100 años después, redescubrió el trabajo de De Moivre y mostró que la normal es una buena aproximación de la distribución binomial, cuando el número de experimentos es grande.

Sin embargo, el enunciado general del teorema no llegó sino hasta el inicio del siglo XX, desarrollado por Aleksandr Lyapunov, quien además dio una demostración precisa de él.

Suponemos que tenemos una sucesión de variables aleatorias X_1, X_2, X_3, \ldots, igualmente distribuidas e independientes, que podemos ver como los resultados de un experimento que se repite muchas veces. La distribución en sí no importa, aunque suponemos que su media (valor esperado) es \mu y su desviación estándar (la raíz cuadrada de su varianza, es decir, la diferencia entre el valor esperado de su cuadrado y el cuadrado de su valor esperado) es \sigma.

La diferencia entre el valor X_i y su media, X_i - \mu, puede ser interpretado como el “error” de la i-ésima observación. Si estamos interesados en la distribución acumulativa de este error conforme repetimos el experimento, entonces debemos estudiar el comportamiento de la suma

(X_1 - \mu) + (X_2 - \mu) + \ldots + (X_n - \mu) = \sum X_i - n\mu

conforme n\to \infty. El teorema del límite central nos dice cómo se comporta.

Teorema del límite central. Sea X_1, X_2, X_3, \ldots una sucesión de variables aleatorias  igualmente distribuidas e independientes con media \mu y desviación estándar  \sigma. Entonces, para a\in\mathbb R, cuando n\to\infty,

\displaystyle P\Big[ \frac{\sum X_i - n\mu}{\sigma \sqrt n} \le a\Big] \to \frac{1}{\sqrt{2\pi}}\int_{-\infty}^a e^{-x^2/2} dx.

En otras palabras, la distribución de \dfrac{\sum X_i - n\mu}{\sigma\sqrt n} converge a una distribución normal.

Debemos resaltar el hecho que la distribución de las variables aleatorias es irrelevante para el teorema. De hecho, las variables incluso podrían ser acotadas, o discretas y con un número finito de valores, y aún así el cociente \dfrac{\sum X_i - n\mu}{\sigma\sqrt n} converge a una distribución normal. Observamos también el término \sqrt n en el denominador, lo cual implica que la exactitud de la aproximación con la normal mejora en proporción de \sqrt n.

Si recordamos que la distribución normal tiene media 0 y desviación estándar 1, entonces, la proporción de la distribución a una desviación estándar es

\displaystyle \frac{1}{\sqrt{2\pi}} \int_{-1}^1 e^{-x^2/2} dx \approx 0.683,

es decir, un 68.3%. Comúnmente, a esa proporción se le suele llamar “a un sigma”. A dos sigmas, tenemos

\displaystyle \frac{1}{\sqrt{2\pi}} \int_{-2}^2 e^{-x^2/2} dx \approx 0.955,

o sea, un 95.5%. A tres sigmas tenemos 99.8%, a cuatro sigmas 99.994%, a cinco sigmas 99.99994%, y así sucesivamente. El empleo de la notación “sigmas” es muy útil en la literatura científica, y denota el nivel de confianza del resultado de un experimento (es decir, qué tan probable es que nuestro resultado sea producto solo del azar, y no de alguna propiedad de la naturaleza).

Como ejemplo, consideremos las probabilidades de que cada nacimiento sea de un hombre o una mujer. Comúnmente, asumimos que la probabilidad es la misma: 1/2 para cada uno. ¿Cómo podemos comprobarlo?

Tomemos, por ejemplo, el número de nacimientos ocurridos en México en el año 2009. Según el INEGI, en ese año nacieron 1,296,770 hombres y 1, 279,883 mujeres. Como vemos, la diferencia es de 16,887 entre nacimientos masculinos y femeninos. ¿Cuál es la probabilidad de tener una diferencia de tal magnitud, si la probabilidad de un nacimiento de cada sexo fuera la misma?

Para cada nacimiento, definimos la variable X como 1 si nace hombre, o 0 si nace mujer. Así, si la probabilidad de un nacimiento de un sexo u otro es 1/2, entonces

\mu = \dfrac{1}{2} y \sigma = \dfrac{1}{2},

por las propiedades de la distribución de Bernoulli. Así, tenemos que n = 2,576,653, \sum X_i = 1,296,770 y

\dfrac{\sum X_i - n\mu}{\sigma\sqrt n} = \dfrac{16,887}{\sqrt{2,576,653}}.

Tenemos entonces que la probabilidad de que este cociente sea al menos a = \dfrac{16,887}{\sqrt{2,576,653}} es igual a

\displaystyle \frac{1}{\sqrt{2\pi}} \int_{a}^\infty e^{-x^2/2} dx \approx 3.49\times 10^{-26}.

 En otras palabras, imposible. La probabilidad de que nazca un hombre debe ser mayor que la que nazca una mujer.

¿Qué tanto? También podemos usar el teorema del límite central para calcularlo. De hecho, con una confianza de 3 sigmas (o sea, 99.8%), esta probabilidad es de

.5027 \le p \le .5042.

Apenas unas milésimas mayor que 1/2, pero suficiente para causar varios miles de nacimientos de diferencia.


Para teoremas anteriores: teorema de la semana.

Esta entrada también participa en la edición 2.X del Carnaval de Matemáticas, cuyo anfitrión es el blog Resistencia Numantina.

2 comentarios en “Teorema de la semana: el del límite central

  1. Pingback: Anónimo

  2. Pingback: CERN anuncia el descubrimiento del (o de lo que debería ser el) Higgs | Series divergentes

Responder

Introduce tus datos o haz clic en un icono para iniciar sesión:

Logo de WordPress.com

Estás comentando usando tu cuenta de WordPress.com. Cerrar sesión / Cambiar )

Imagen de Twitter

Estás comentando usando tu cuenta de Twitter. Cerrar sesión / Cambiar )

Foto de Facebook

Estás comentando usando tu cuenta de Facebook. Cerrar sesión / Cambiar )

Google+ photo

Estás comentando usando tu cuenta de Google+. Cerrar sesión / Cambiar )

Conectando a %s