Los sistemas inteligentes actuales hacen principalmente “predicciones”. Es decir, dada una entrada, estiman el valor más probable de la salida. Por ejemplo, cuál es el objeto en la imagen, que me interesa comparar con base en mi historial; dada una frase, cuál es la siguiente palabra; etcétera. Estos sistemas tienen muchas limitaciones, se pueden confundir fácilmente cuando se presenta un caso diferente a su conjunto de entrenamiento, y no pueden explicar cómo llegan a cierto resultado. La inteligencia natural va mucho más allá. Somos capaces de predecir qué pasará cuando hacemos cierta acción, de imaginar que hubiera pasado si hubiéramos tomado otra alternativa, entre otras muchas capacidades de la inteligencia humana. Los modelos causales son una alternativa para extender las capacidades de los sistemas inteligentes actuales; explicar el porqué de ciertas decisiones, predecir el efecto de intervenciones e imaginar situaciones alternativas.
Un modelo causal representa las relaciones entre causas y efectos. Por ejemplo, fumar causa cáncer, la obesidad puede causar diabetes, tomar un objeto muy caliente causa quemaduras, etcétera. La idea de los modelos causales es representar estas relaciones de causa efecto en la computadora mediante un modelo, para luego poder hacer cierto tipo de razonamientos que no son posibles con los modelos tradicionales (por ejemplo, los modelos estadísticos o las redes neuronales). El desarrollo de este tipo de modelos es reciente, a partir de los inicios de este siglo, y en particular el de los modelos gráficos causales. Los modelos gráficos causales representan el conocimiento causal mediante grafos, donde los nodos son variables y los arcos representan las relaciones causales, de forma que la variable en la cola del arco es una causa directa de la variable en la cabeza del arco. Por ejemplo, la siguiente figura representa las relaciones “lluvia” causa “calle mojada” y “aspersor” causa “calle mojada”.
Dado un modelo causal podemos hacer dos tipos de razonamientos: predicciones y contrafactuales. Las predicciones consisten en fijar el valor de una variable (lo que se conoce como una intervención) y estimar el efecto en las demás variables en el modelo. Por ejemplo, podemos encender el aspersor y ver cuál sería el efecto en las demás variables. En este caso, esperamos que la calle se encuentre mojada y esto no afectaría la variable lluvia. Un contrafactual consiste en analizar qué hubiera pasado si la situación hubiera sido diferente a lo que sucedió, es como imaginar, algo que comúnmente hacemos los humanos. Por ejemplo, digamos que llovió y la calle está mojada, ¿estaría mojada si no hubiera llovido? Habría que modificar los valores de las variables en el modelo —lluvia y calle mojada—, y las demás variables mantener el valor que tenían (por ejemplo, que el aspersor estaba apagado), y hacer la inferencia sobre este modelo modificado; esperaríamos que la calle no estaría mojada. Normalmente estos modelos tienen asociadas probabilidades, ya que en muchos casos las causas no siempre producen el efecto. Por ejemplo, fumar aumenta la probabilidad de ciertos tipos de cáncer, pero no produce cáncer en todas las personas. Por lo que el razonamiento causal toma en cuenta estas probabilidades y estima la probabilidad de los efectos, utilizando cálculos matemáticos similares a los que se realizan en modelos probabilistas como las redes bayesianas.
Una pregunta interesante es si podemos aprender estos modelos a partir de datos. Idealmente, para aprender un modelo causal es necesario hacer “experimentos”. Esto es lo que se hace en las pruebas clínicas; por ejemplo, si se quiere saber si una vacuna causa inmunidad a cierta enfermedad, se aplica la vacuna a un número de personas y un placebo a otro número similar de personas, y se observa si a las que se le aplicó la vacuna presentan mayor inmunidad. Pero el hacer experimentos es muy costoso, y en ocasiones no es ético o es prácticamente imposible. Por ello, hay gran interés de poder aprender modelos causales a partir de datos almacenados, que no son necesariamente de experimentos, ya que son actualmente muy abundantes en muchas aplicaciones. Estos datos se conocen como “datos observacionales”, y el aprender modelos causales a partir de estos datos se denomina descubrimiento causal.
El descubrimiento causal es un gran reto, ya que de los datos solo obtenemos estadísticas sobre las relaciones de independencia entre las variables, pero puede haber varios modelos causales que representen las mismas relaciones estadísticas, llamados modelos equivalentes. Por ejemplo, de datos podemos obtener las siguientes relaciones de dependencia: lluvia–calle mojada–calle resbalosa, pero no podemos distinguir la dirección de causalidad: lluvia→calle mojada→calle resbalosa o la alternativa estadísticamente equivalente: lluvia←calle mojada← calle resbalosa.
Para resolver esto se han propuesto diversas estrategias (i) incorporar conocimiento previo, (ii) asumir cierto tipo de distribuciones estadísticas de los datos, o (iii) realizar algunos experimentos. Con esto se ha logrado un avance importante en el descubrimiento causal en diversas aplicaciones, incluyendo modelado del clima, economía, medicina y neuro-imágenes, entre otras.
Contar con un modelo causal tiene grandes ventajas. Podemos estimar el efecto que tendrían ciertas acciones sin necesidad de realizarlas en el “mundo real”, y de esa forma seleccionar las mejores opciones. Por ejemplo, una empresa podría determinar cuál es la mejor estrategia para aumentar sus ventas; o la autoridad sanitaria la mejor forma de reducir ciertas enfermedades; o qué acciones realizar para reducir el cambio climático. También ayudan a generar explicaciones, lo que es una limitación de la mayoría de los sistemas inteligentes actuales. Contando con un modelo causal, podemos conocer las causas de cierta variable de interés, lo que provee una explicación de dicha variable. Por ejemplo, por qué se presentó cierta falla en una planta industrial o qué es lo que impacta en el precio de la energía en cierta región.
Existen diversos grupos de investigación en modelos causales en el mundo, entre los que destacan los grupos pioneros en esta área, en particular el de la Universidad de Carnegie-Mellon, liderado por Peter Spirtes y Clark Glymour, y el de la Universidad de California en Los Angeles, bajo el liderazgo de Judea Pearl. También han surgido recientemente algunas empresas que aplican los modelos causales en diversos dominios, como el de las finanzas y el de las líneas de producción industriales, entre otras.
También en México se realiza investigación en este campo, en algunas universidades e institutos de investigación, como el Instituto Nacional de Astrofísica, Óptica y Electrónica, el Centro de Inteligencia Artificial de la Universidad Veracruzana, el Instituto Tecnológico de Morelia y el Tecnológico de Monterrey. Estos grupos organizan desde hace tres años un taller (workshop) sobre Descubrimiento Causal (CaDis), enfocado en promover la investigación y colaboración en modelos causales y sus aplicaciones en México, y en general en Latinoamérica.
Para mayor información sobre los eventos pasados y futuros consultar:
Las memorias de los primeros dos workshops se pueden bajar de la página de la Academia Mexicana de Computación:
https://amexcomp.mx/publications/list-books/
Para aquellos interesados en adentrarse en este fascinante campo, les recomiendo el libro introductorio de Judea Pearl y Dana Mackenzie, The Book of Why, editorial Basic Books, 2018.