Te contamos como toma decisiones una red neuronal

A un niño se le presenta una imagen de varias formas y se le pide que encuentre el gran círculo rojo. Para llegar a la respuesta, él sigue algunos pasos de razonamiento: Primero, encuentra todas las cosas importantes; luego, encuentra las cosas grandes que son rojas; y finalmente, elige la gran cosa roja que es un círculo.

Aprendemos a través de la razón cómo interpretar el mundo, de la misma manera lo hacen las redes neuronales. Un equipo de investigadores del Grupo de Tecnologías de Decisión e Inteligencia del Laboratorio Lincoln del MIT ha desarrollado una red neuronal que realiza pasos de razonamiento similares a los humanos para responder preguntas sobre el contenido de las imágenes. Nombrada Transparencia por Red de Diseño (TbD-net), el modelo representa visualmente su proceso de pensamiento a medida que resuelve problemas, permitiendo a los analistas humanos interpretar su proceso de toma de decisiones. El modelo funciona mejor que las mejores redes neuronales de razonamiento visual actual.

Comprender cómo una red neuronal llega a sus decisiones ha sido un desafío de larga data para los investigadores de la inteligencia artificial (IA). Como sugiere la parte neuronal de su nombre, las redes neuronales son sistemas de inteligencia artificial inspirados en el cerebro que intentan reproducir la forma en que los humanos aprenden. Consisten en capas de entrada y salida, y capas intermedias que transforman la entrada en la salida correcta. Algunas redes neuronales profundas se han vuelto tan complejas que es prácticamente imposible seguir este proceso de transformación. Es por eso que se los conoce como sistemas de “caja negra”, con su interior exacto opaco incluso para los ingenieros que los construyen.

Con TbD-net, los desarrolladores tienen como objetivo hacer que este funcionamiento interno sea transparente. La transparencia es importante porque permite a los humanos interpretar los resultados de una IA.

Es importante saber, por ejemplo, qué es exactamente lo que una red neuronal utilizada en los automóviles autónomos piensa para poder diferenciar entre un peatón y una señal de alto, y en qué punto de su cadena de razonamiento ve esa diferencia. Estas ideas permiten a los investigadores enseñar a la red neuronal a corregir cualquier suposición incorrecta. Pero los desarrolladores de TbD-net dicen que las mejores redes neuronales actuales carecen de un mecanismo efectivo para permitir que los humanos comprendan su proceso de razonamiento.

“El progreso en la mejora del rendimiento en el razonamiento visual se ha producido a costa de la interpretabilidad”, dice Ryan Soklaski, que construyó TbD-net con sus colegas investigadores Arjun Majumdar, David Mascharka y Philip Tran.

El grupo del Laboratorio Lincoln pudo cerrar la brecha entre el rendimiento y la capacidad de interpretación con TbD-net. Una de las claves de su sistema es una colección de “módulos”, pequeñas redes neuronales especializadas para realizar subtareas específicas. Cuando a TbD-net se le hace una pregunta de razonamiento visual sobre una imagen, descompone la pregunta en subtareas y le asigna el módulo apropiado para cumplir con su parte. Al igual que los trabajadores en una línea de ensamblaje, cada módulo usa lo que el módulo anterior  haya descubierto para eventualmente producir la respuesta final correcta. En general, TbD-net utiliza una técnica de IA que interpreta las preguntas del lenguaje humano y las divide en subtareas, seguidas de múltiples técnicas de IA de visión artificial que interpretan las imágenes.

Majumdar dice: “Romper una compleja cadena de razonamiento en una serie de subproblemas más pequeños, cada uno de los cuales se puede resolver de forma independiente y compuesta, es un medio poderoso e intuitivo para el razonamiento”.

La salida de cada módulo se representa visualmente en lo que el grupo llama una “máscara de atención”. La máscara de atención muestra blobs de mapa térmico sobre objetos en la imagen que el módulo identifica como su respuesta. Estas visualizaciones le permiten al analista humano ver cómo un módulo está interpretando la imagen.

Tomemos, por ejemplo, la siguiente pregunta planteada a TbD-net: “En esta imagen, ¿de qué color es el cubo grande de metal?” Para responder la pregunta, el primer módulo localiza solo objetos grandes, produciendo una máscara de atención con esos objetos grandes resaltados El siguiente módulo toma esta respuesta y encuentra cuáles de esos objetos identificados como grandes por el módulo anterior también son metálicos. La salida de ese módulo se envía al siguiente módulo, que identifica cuál de esos objetos metálicos grandes también es un cubo , esta salida se envía a un módulo que puede determinar el color de los objetos. La salida final de TbD-net es “roja”, la respuesta correcta a la pregunta.

Cuando se probó, TbD-net logró resultados que superan los mejores modelos de razonamiento visual. Los investigadores evaluaron el modelo utilizando un conjunto de datos visual de respuesta a preguntas que consta de 70,000 imágenes de entrenamiento y 700,000 preguntas, junto con conjuntos de prueba y validación de 15,000 imágenes y 150,000 preguntas. El modelo inicial logró una precisión de prueba del 98,7 por ciento en el conjunto de datos, que, según los investigadores, supera con creces otros enfoques basados ​​en redes de módulos neuronales.

Es importante destacar que los investigadores pudieron mejorar estos resultados debido a la ventaja clave de su modelo: la transparencia. Al observar las máscaras de atención producidas por los módulos, pudieron ver dónde salieron las cosas y refinar el modelo. El resultado final fue un rendimiento de vanguardia con una precisión del 99.1 por ciento.

“Nuestro modelo proporciona salidas directas e interpretables en cada etapa del proceso de razonamiento visual”, dice Mascharka.

La interpretabilidad es especialmente valiosa si se implementan algoritmos de aprendizaje profundo junto con humanos para ayudar a abordar tareas complejas del mundo real. Para generar confianza en estos sistemas, los usuarios necesitarán la capacidad de inspeccionar el proceso de razonamiento para que puedan entender por qué y cómo un modelo podría hacer predicciones incorrectas.

Paul Metzger, líder del Grupo de Inteligencia y Tecnologías de Decisión, dice que la investigación “es parte del trabajo de Lincoln Laboratory para convertirse en un líder mundial en investigación aplicada de aprendizaje automático e inteligencia artificial que fomenta la colaboración humano-máquina.”