Probabilidad condicional

Qué aprenderás en esta sección

En esta sección abordaremos el concepto de.

Prerrequisitos

Desarrollo

En el ámbito del machine learning el concepto de probabilidad condicional es un tema muy importante en los modelos generativos, comprender el concepto de “condicional” es primordial para desarrollar redes neuronales que generan contenido en función de la dependencia de los datos suministrados, por lo tanto empezaremos por definir el concepto de probabilidad condicional.

Sea A y B dos eventos, denotamos por P(B|A) como la probabilidad de que suceda el evento B dado que el evento A ha ocurrido. Como se sabe que el evento A ha sucedido, el nuevo espacio muestral es definido por A reemplazando al espacio muestral original S. Por lo tanto tenemos.

\[\large P(A|B) = \frac{P(A\cap B)}{P(A)} \] \[\large P(A\cap B) = P(A)P(B|A) \]

Para entender mejor el concepto vamos a realizar una ejemplo, supongamos que tenemos el espacio muestral comprendido por el experimento aleatorio de lanzar un dado, y definimos dos eventos A y B, donde A son los resultados par, y B que el resultado sea 2, es decir.

\[\large S = {1,2,3,4,5,6} \] \[\large A = {2,4,6} \] \[\large B = {2} \]

Por lo tanto si quisiéramos saber la probabilidad de que suceda el evento B dado que ha sucedido A, es decir, supongamos que lanzamos un dado y no vemos el resultado si no que alguien nos dice si fue par o no, dependiendo de lo que nos digan tenemos estos dos escenarios.

Que nos digan que el resultado fue impar, en ese caso automáticamente sabemos que la probabilidad de que haya salido un 2, es cero.

Que nos digan que el resultado fue par, en ese caso, aumentan las probabilidades de obtener un dos como resultado, pues los únicos valores pares que tiene un dado son el 2, 4 y el 6, por lo tanto la probabilidad de obtener un 2 dado que el lanzamiento fue par, es de 1/3 .

Es importante comprender que la probabilidad de obtener un 2 sin un evento previo es de ⅙ para un dado honesto, sin embargo cuando agregamos información adicional al evento, la probabilidad de obtener un dos se ve afectada drásticamente.

Ahora analizaremos el mismo ejemplo pero aplicando la ecuación de probabilidad condicional; para ello primero obtenemos la probabilidad de que suceda el evento A y B, es decir la probabilidad de obtener un 2 y que sea par P(AnB).

\[\large P(A\cap B) = P(A) + P(B) - P(A\cup B) = \frac{1}{2} + \frac{1}{6} - \frac{1}{2} = \frac{1}{6} \]

El cálculo de esta probabilidad no se realizó multiplicando de las dos probabilidades individuales, debido a que para emplear este método los dos eventos deberán ser independientes y como podemos observar la ocurrencia de un evento afecta a la otra, por lo tanto son dependientes.

Luego procedemos a calcular la probabilidad del evento A y obtenemos la probabilidad condicional de obtener un 2 dado que el resultado fue par.

\[\large P(A) = \frac{1}{2} \] \[\large P(B|A) = P(\{2 \}| \{2,4,6 \}) = \frac{P(A\cap B)}{P(A)} = \frac{1}{3} \]

Una forma de verlo gráficamente sería la siguiente, en la que definido el nuevo espacio muestral por el evento A que sea par, es.

Fig 1. Paso a paso de la obtención de la distribución condicional dado que ha sucedido un evento A

De la gráfica, fácilmente se puede apreciar que 1 de los tres resultados del nuevo espacio muestral es 2, por lo tanto la probabilidad de obtener 2 dado que el resultado fue par es de ⅓.

En caso de que los eventos A y B sean independientes, se tiene que.

\[\large P(A \cap B) = P(A) * P(B) \] \[\large P(B|A) = \frac{P(A\cap B)}{P(A)} = \frac{P(A)\cdot P(B)}{P(A)} = P(B) \]

Al ser los eventos A y B independientes, la probabilidad del evento B dado que el evento A ha sucedido, es igual a la probabilidad de B es decir el hecho de que el evento A haya sucedido, no afecta la probabilidad del evento B.

Para ponerlo en perspectiva, supongamos que el evento C es el evento de obtener un número impar, y que el evento B sea obtener un 2, como los eventos C y B, son excluyentes, es decir no se pueden dar los dos eventos al tiempo, osea no podemos tener un resultado impar y al mismo tiempo que el resultado sea un 2, el suceso de uno excluye al otro, y por ende son independientes por lo tanto la probabilidad condicional dada.

\[\large P(B|C) = \frac{P(C\cap B)}{P(C)} = \frac{P(C)\cdot P(B)}{P(C)} = P(B) = \frac{1}{6} \]

Probabilidad total

Este concepto básicamente lo que nos indica es que la probabilidad de un evento cualquiera puede ser fragmentado en varios sucesos, la explicación formal es la siguiente.

Sea Ai una partición de S formada por una colección infinita numerable de sucesos de probabilidad no nula. La probabilidad de un suceso cualquiera B puede expresarse como.

\[\large p(B) = \sum_{i=1}^{\infty } p(A_{i})\cdot p(B|A_{i}) \]

Para comprender el concepto de manera gráfica, supongamos que tenemos una chocolatina de forma cuadrada la cual tiene 16 pastillas idénticas y también cuadradas.

Fig 2. Analogía de un espacio probabilístico por medio de una chocolatina de 16 pastillas idénticas

Se decide dividir la chocolatina en 4 áreas idénticas y nos llevamos una de ellas; es decir nos llevamos 4 pastillas como mostramos a continuación.

Fig 3. Extracción de 4 pastillas de la chocolatina, es decir ¼ de la misma.

En el camino encontramos a un amigo y decidimos compartir dos pastillas de nuestro pedazo de chocolatina, es decir hemos compartido un 1/2 del pedazo del chocolate que teníamos, así.

Fig 4. Extracción de dos pastillas de las 4 pastillas extraídas en la figura 3.

Si bien hemos obsequiado la mitad de la chocolatina que nos dieron, a nivel general de toda la chocolatina hemos regalado a nuestro amigo la mitad de un cuarto de la chocolatina, o lo que es lo mismo 1/8 parte de la chocolatina completa, si lo vemos de forma gráfica sería algo así.

Fig 5. Las dos pastillas obsequiadas, desde el punto de vista de toda la chocolatina.

Si definimos (B) como el trozo que obtuvimos al comienzo es decir un cuarto de la chocolatina y también definimos a (A) como el trozo de chocolate que obsequiamos a un amigo, entonces P(A|B) podría interpretarse como el porcentaje que hemos obsequiado dado que tenemos un cuarto de la chocolatina.

Sin embargo si quisiéramos saber cual es la proporción de esas dos pastilla obsequiadas en la chocolatina completa es decir la 1/8 parte de la chocolatina, una forma de hacerlo es multiplicar ambas proporciones, es decir la proporción de la pastilla obsequiada a un amigo desde el punto de vista del trozo que tenemos es decir 1/2, por la proporción del trozo de chocolatina que nos dieron al comienzo, que era ¼ de toda la chocolatina, por lo que la proporción a nivel global de las dos pastilla que obsequiamos es igual.

\[\large \frac{1}{2}\cdot \frac{1}{4} = \frac{1}{8} \]

Ahora supongamos que las otras tres partes de la chocolatina fueron entregadas a otras tres personas diferentes, y cada una de ellas obsequio un trozo de sus partes, la persona 1 obsequio 1 pastilla (1/4), la persona 2 obsequio 3 pastillas (3/4) y la persona 3 obsequio 2 pastillas (2/4) es decir, aplicando el concepto anterior se tiene que la proporción obsequiada por cada persona, a nivel global de la chocolatina seria.

\[\large Persona 1 = ½*¼ = \] \[\large Persona 12 = ½*¼ = \]

Contando las proporciones a nivel global de todos los trozos que obsequiaron todas las personas, se tiene que fueron XXX porción de la chocolatina, es decir.

Fig 6. Las pastillas obsequiadas por cada persona que se llevó ¼ de la chocolatina total, vistas desde el punto de vista global.

De la imagen es fácil observar que en efecto fueron 8 trozos obsequiados, y de esta manera se puede determinar la totalidad de los trozos obsequiados vistos desde la perspectiva de cada persona, comprender este enfoque es importante pues el cálculo de la probabilidad total tiene el mismo enfoque, solo que en este caso en lugar de hablar de pastillas hablaremos de porcentajes de probabilidad.

Una manera gráfica y que es análoga al ejemplo que acabamos de ver con la chocolatina, pero con la probabilidad total es.

Fig 7. Probabilidad total de B seccionado en varias regiones.

Así que recordando la ecuación de la probabilidad total.

\[\large p(B) = \sum_{i=1}^{\infty } p(A_{i})\cdot p(B|A_{i}) \]

Los Ai vienen siendo los trozos en que se dividió la chocolatina, el área nombrada como B serían los trocitos que cada persona obsequio, calculados a nivel de la chocolatina y no desde la proporción de cada uno, por lo tanto al sumar todos esos trozos obsequiados, se tiene el área completa de B; en probabilidad los eventos Ai son los eventos que componen el espacio muestral en su totalidad, y el evento B es un evento cualquiera.

Ahora procederemos a realizar un ejemplo de la probabilidad total, para ello vamos a establecer un espacio muestral definido como una bolsa con 20 balotas numeradas del 1 al 20, y vamos a dividir las balotas en 4 bolsas aparte, que llamaremos los eventos A1, A2, A3 y A4 cuyos eventos son.

\[\large A_{1} = {1,2,3,4,5} \] \[\large A_{2} = {6,7,8,9,10} \] \[\large A_{3} = {11,12,13,14,15} \] \[\large A_{4} = {16,17,18,19,20} \]

Una manera de verlo en forma de conjuntos sería.

Fig 8. Probabilidad total de B en zona sombreada.

Se define el evento B como.

\[\large B = {números primos} \]

Con lo anterior, vamos a proceder a calcular la probabilidad total de B, para ello obtenemos las probabilidades condicionales.

\[\large p(B|A1) = p(BnA1)/p(A1) = p({2,3,5})/p({1,2,3,4,5}) = 3/20/1/4 = \] \[\large p(B|A2) = p(BnA2)/p(A2) = p({7})/p({6,7,8,9,10}) = 1/20/1/4 = \] \[\large p(B|A3) = p(BnA3)/p(A3) = p({11,13})/p({11,12,13,14,15}) = 2/20/1/4 = \] \[\large p(B|A4) = p(BnA4)/p(A4) = p({17,19})/p({16,17,18,19,20}) = 2/20/1/4 = \]

De esta manera procedemos a calcular la probabilidad total de B.

\[\large p(B) = \sum_{i=1}^{4} p(B|A_{i}) \cdot p(A_{i}) \] \[ \large p(B) = p(B|A_{1}) \cdot p(A_{1}) + p(B|A_{2}) \cdot p(A_{2}) + p(B|A_{3}) \cdot p(A_{3}) + p(B|A_{4}) \cdot p(A_{4}) \] \[ \large p(B) = hjgjhg \]

Y esta manera obtenemos la probabilidad total de B, en este punto quizás te preguntes si no era más fácil escoger los numeros primos del espacio muestral y dividirlos por el total de elementos y en efecto es correcto, sin embargo abordamos un ejemplo sencillo para comprender y demostrar de qué otra manera se puede obtener la probabilidad total de un evento.

Sin embargo en la mayoría de situaciones los espacios muestrales no son así de pequeños, y la información se tiene por medio de proporciones o porcentajes, y en la mayoría tenemos acceso a información de probabilidades condicionales como por ejemplo la proporción de familias que tienen un gato dado que tienen mascota; y allí es donde la ecuación de la probabilidad total tiene sentido.