
CientÃficos han logrado desarrollar una red neuronal de IA con una sorprendente habilidad para realizar generalizaciones en el ámbito del lenguaje, al nivel de las capacidades humanas. Este sistema de inteligencia artificial se desempeña casi al mismo nivel que las personas al incorporar con facilidad palabras recién aprendidas en su vocabulario existente y utilizarlas en contextos nuevos, lo que representa un aspecto fundamental de la cognición humana conocido como generalización sistemática.
Una red neuronal de nivel humano

Los investigadores plantearon el mismo desafÃo al modelo de IA que respalda al chatbot ChatGPT y descubrieron que este último obtiene resultados significativamente inferiores en esta prueba en comparación con la nueva red neuronal y las personas, a pesar de su asombrosa capacidad para sostener conversaciones de manera similar a los humanos.
Este estudio, publicado el 25 de octubre en la revista Nature, podrÃa allanar el camino para la creación de máquinas que interactúen con las personas de una manera mucho más natural que los sistemas de IA actuales. A pesar de que los sistemas basados en modelos de lenguaje extensos, son competentes en conversaciones en muchos contextos, muestran notables brechas e inconsistencias en otros.
El rendimiento equiparable al humano de la red neuronal sugiere que se ha logrado un “avance en la capacidad de entrenar redes de manera sistemática”, según las palabras de Paul Smolensky, un cientÃfico cognitivo especializado en lenguaje en la Universidad Johns Hopkins en Baltimore, Maryland.
La generalización sistemática se manifiesta en la habilidad de las personas para utilizar sin esfuerzo palabras recién adquiridas en nuevos contextos. Sin embargo, esta capacidad no es inherente en las redes neuronales, un enfoque para emular la cognición humana que ha dominado la investigación en inteligencia artificial, según Brenden Lake, cientÃfico computacional cognitivo en la Universidad de Nueva York y coautor del estudio.
A diferencia de las personas, las redes neuronales tienen dificultades para emplear una nueva palabra hasta que han sido entrenadas con una gran cantidad de textos de muestra que utilizan dicha palabra. Durante casi 40 años, los investigadores en IA han debatido si las redes neuronales podrÃan ser un modelo plausible de la cognición humana si no pueden demostrar este tipo de sistematicidad.
Resolviendo la duda

Para resolver este debate, los autores llevaron a cabo una prueba inicial con 25 personas para evaluar su capacidad para utilizar palabras recién aprendidas en diferentes situaciones. Los investigadores garantizaron que los participantes estuvieran aprendiendo las palabras por primera vez al ponerlos a prueba en un lenguaje ficticio que constaba de dos categorÃas de palabras sin sentido. Las palabras “primitivas”, como “dax,” “wif” y “lug”, representaban acciones básicas y concretas, como “saltar” y “brincar”. Las palabras “funcionales”, más abstractas, como “blicket,” “kiki” y “fep,” especificaban reglas para utilizar y combinar las primitivas, lo que resultaba en secuencias como “saltar tres veces” o “brincar hacia atrás”.
Los participantes recibieron entrenamiento para asociar cada palabra primitiva con un cÃrculo de un color especÃfico, de modo que un cÃrculo rojo representara “dax” y un cÃrculo azul representara “lug”. Luego, los investigadores mostraron a los participantes combinaciones de palabras primitivas y funcionales junto con los patrones de cÃrculos que resultarÃan cuando se aplicaran las funciones a las primitivas. Por ejemplo, la frase “dax fep” se mostró con tres cÃrculos rojos, y “lug fep” con tres cÃrculos azules, lo que indicaba que “fep” denotaba una regla abstracta para repetir una primitiva tres veces.
Finalmente, los investigadores evaluaron la capacidad de los participantes para aplicar estas reglas abstractas al darles combinaciones complejas de palabras primitivas y funciones. Luego, tenÃan que seleccionar el color y el número correctos de cÃrculos y colocarlos en el orden adecuado.
Como se esperaba, las personas destacaron en esta tarea; eligieron la combinación correcta de cÃrculos de colores aproximadamente el 80% del tiempo, en promedio. Cuando cometieron errores, los investigadores notaron que seguÃan un patrón que reflejaba sesgos humanos conocidos.
Los resultados de la IA

A continuación, los investigadores entrenaron una red neuronal para realizar una tarea similar a la presentada a los participantes, programándola para aprender de sus errores. Este enfoque permitió que la IA aprendiera a medida que completaba cada tarea en lugar de utilizar un conjunto estático de datos, que es el enfoque estándar para entrenar redes neuronales.
Para que la red neuronal fuera similar a la humana, los autores la entrenaron para reproducir los patrones de errores que observaron en los resultados de las pruebas humanas. Cuando la sometieron a nuevos desafÃos, sus respuestas coincidieron casi exactamente con las de los voluntarios humanos y, en algunos casos, superaron su rendimiento.
Por otro lado, GPT-4 tuvo dificultades con la misma tarea, fallando, en promedio, entre el 42% y el 86% de las veces, dependiendo de cómo los investigadores presentaron la tarea. Lake afirmó:
“No es magia, es práctica. Al igual que un niño también practica al aprender su lengua materna, los modelos mejoran sus habilidades de composición a través de una serie de tareas de aprendizaje compositivo”.
Melanie Mitchell, una cientÃfica de la computación y cognitiva en el Instituto Santa Fe en Nuevo México, considera que este estudio es una prueba interesante de principio, pero aún queda por ver si este método de entrenamiento puede escalarse para generalizar en un conjunto de datos mucho más grande o incluso para imágenes. Lake espera abordar este problema estudiando cómo las personas desarrollan la habilidad de generalización sistemática desde una edad temprana e incorpor ar esos hallazgos para construir una red neuronal más sólida.
Elia Bruni, especialista en procesamiento de lenguaje natural en la Universidad de Osnabrück en Alemania, considera que esta investigación podrÃa hacer que las redes neuronales sean aprendices más eficientes.
Esto reducirÃa la enorme cantidad de datos necesarios para entrenar sistemas como ChatGPT y minimizarÃa la “alucinación”, que ocurre cuando la IA percibe patrones que no existen y genera resultados inexactos.
Pingback: ¿SabÃas que te pueden ver a través de tu router? La señal WiFi permite generar modelos 3D de personas en una habitación