Los Datos son Tontos o porqué requerimos Modelos Causales

Consejo Consultivo de Ciencias

20/04/2021 05:11

L. Enrique Sucar, Miembro del Consejo Consultivo

Si analizamos los datos de consumo de chocolate y premios Nobel de varios países, encontramos lo siguiente:

Los datos parecen indicar que ¡el consumo de chocolate aumenta la probabilidad de tener premios Nobel! Esta noticia incluso salió en los periódicos hace algunos años.

El error es que se está confundiendo correlación con causalidad. El consumo de chocolate y los premios Nobel están correlacionados, pero eso no necesariamente implica que uno cause otro; puede haber una causa común (conocido como cofactor) que produce esta correlación. En este caso es el nivel de ingresos de los países: aquellos con mayor ingreso tienden a consumir más chocolate y tener más premios Nobel.

Estamos en la era del “big data" y se espera que podamos obtener conocimiento de los datos y usarlos para resolver muchos problemas; pero de los datos sólo podemos aprender asociaciones. Para ir más allá necesitamos modelos causales, que nos permitan aprender relaciones verdaderas causa-efecto y poder aplicarlos para la toma de decisiones.

Una forma de obtener relaciones causales es mediante experimentos en que se compara el efecto de una variable en otra, controlando por los posibles cofactores. Por ejemplo, en las recientes pruebas clínicas para analizar el efecto de las vacunas para COVID-19, se aplica a un grupo de personas la vacuna y a otras un placebo, buscando que en ambos grupos haya una variedad de edades, géneros, origen, etc. Si las personas a las que se les aplicó la vacuna muestran una resistencia mayor a la enfermedad que el otro grupo, podemos afirmar que la vacuna causa inmunidad (hasta cierto grado) a la enfermedad.

El problema es que estos experimentos son muy costosos, y en ocasiones imposibles o no éticos. Hace tiempo había la controversia si fumar causa cáncer, pero no era ético el hacer que un grupo de personas fumaran (y otras no) para contestar esta pregunta; y por ello tomó muchos años en establecerse una conclusión. Entonces la pregunta es: ¿podemos descubrir relaciones causales sin la necesidad de hacer experimentos?

Recientemente hay importantes avances en el descubrimiento causal; es decir, en tratar de obtener relaciones causales de datos “observacionales". Esto se refiere a datos que son producto de simplemente observar lo que sucede sin que sean producto de experimentos controlados. En particular se han desarrollado diversos algoritmos para aprender modelos gráficos causales, en los cuales las relaciones de causa-efecto entre diversas variables se representan mediante un grafo dirigido. Por ejemplo, la siguiente figura representa las relaciones “lluvia" causa “calle mojada" y “aspersor" causa “calle mojada".El aprender modelos causales de datos observacionales representa un gran reto, ya que de los datos sólo obtenemos estadísticas sobre las relaciones de independencia entre las variables, pero puede haber varios modelos causales que representen las mismas relaciones estadísticas, llamados modelos equivalentes. Por ejemplo, de datos podemos obtener las siguientes relaciones: lluvia – calle mojada – calle resbalosa, pero no podemos distinguir la dirección de causalidad: lluvia à calle mojada à calle resbalosa o la alternativa estadísticamente equivalente: lluvia ß calle mojada ß calle resbalosa.

Para resolver esto se han propuesto diversas estrategias: (i) incluir algunas suposiciones, (ii) incorporar conocimiento previo, (iii) asumir cierto tipo de distribuciones estadísticas de los datos, o (iv) realizar algunos experimentos. Con esto se ha logrado un avance importante en el descubrimiento causal en diversas aplicaciones, incluyendo modelado del clima, economía, medicina y neuro-imágenes, entre otras.

El contar con un modelo causal tiene grandes ventajas. Podemos estimar el efecto que tendrían ciertas acciones sin necesidad de realizarlas en el “mundo real”, y de esa forma seleccionar las mejores opciones. Por ejemplo, una empresa podría determinar cuál es la mejor estrategia para aumentar sus ventas; o la autoridad sanitaria la mejor forma de reducir ciertas enfermedades; o que acciones realizar para reducir el cambio climático.

La siguiente vez que veamos en los periódicos o las redes sociales sobre relaciones entre variables como el del chocolate y los premios Nobel, hay que cuestionarnos si realmente representar relaciones causales o simplemente correlaciones. ¡Los datos son tontos!