Grandes Modelos de Lenguaje: razonamiento o recuperación avanzada de información

03 de junio, 2025

Sobre el autor

La Dra. Mayra Fabiana Ángeles Sánchez cuenta con el Doctorado en Educación de las Ciencias, Ingenierías y Tecnologías. Actualmente es Directora de Atención y Apoyo Digital en la Universidad de las Ámericas Puebla.

Escucha el análisis de este artículo.

- Generado automáticamente con Notebook LM -

El impresionante desempeño de los Grandes Modelos de Lenguaje (LLM) por sus siglas en inglés (Large Language Models) en diferentes tareas, pareciera sugerir que poseen un cierto grado de habilidades de razonamiento abstracto.

Estos modelos (p. ej. ChatGPT), que han sido entrenados con grandes cantidades de información y ajustes finos, muestran una capacidad asombrosa para generar texto coherente, responder preguntas, traducir idiomas y, aparentemente, realizar tareas que implican un profundo entendimiento y lógica.

A primera vista, la capacidad de un LLM para resolver problemas matemáticos, depurar código o incluso generar argumentos lógicos podría sugerir un razonamiento genuino. Por ejemplo, al pedirle a un LLM que explique un concepto complejo de física, no solo da definiciones, sino que a menudo las reformula, proporciona ejemplos y establece conexiones que parecen implicar una comprensión subyacente. Esta habilidad que pareciera ir más allá de la mera repetición ha llevado a algunos a postular que cuentan con formas rudimentarias de razonamiento emergente.

Una de las razones por las que surge la ilusión de razonamiento en los LLM es porque estos modelos son increíblemente buenos para generar lenguaje humano. El lenguaje es el vehículo de nuestro pensamiento y razonamiento, y al dominarlo, los LLMs pueden simular los resultados de procesos cognitivos complejos.

La capacidad de un LLM para parafrasear, resumir y sintetizar información es un testimonio de esta sofisticada recuperación. Sin embargo, no es que estén razonando sobre el contenido, sino que el modelo ha aprendido las relaciones probabilísticas entre diferentes formas de expresar el mismo concepto o diferentes piezas de información que suelen aparecer juntas.

Una inspección más profunda revela que el "razonamiento" de un LLM parte de una forma avanzada de recuperación de información. Los modelos aprenden a predecir la siguiente palabra basándose en el contexto previo, y esta predicción se nutre de los patrones estadísticos inferidos de miles de millones de ejemplos.

Cuando un LLM "resuelve" un problema, en esencia aplica un patrón de solución que ha encontrado repetidamente en sus datos de entrenamiento, o combina fragmentos de información de maneras novedosas. Pero es importante considerar que, aunque dichas respuestas pueden parecer ingeniosas, no implican un proceso deductivo o inductivo similar al humano ¿es porque el modelo "comprende" o porque ha internalizado la estructura lingüística de problemas similares y sus soluciones asociadas?

La cuestión central que persiste es si su impresionante desempeño puede ser denominado razonamiento o a diferencia del proceso humano ¿debe ser identificado como una manifestación sofisticada de recuperación de patrones provenientes de la información con la que ha sido entrenado en combinación con ajustes finos y diferentes estrategias complementarias?

¿Cuáles son los límites inherentes de un LLM para su aplicabilidad en tareas que requieren una verdadera comprensión, creatividad o la capacidad de inferir a partir de información incompleta de una manera novedosa y no preexistente en los datos de entrenamiento?

¿Qué estrategias se están empleando para mitigar este tipo de limitaciones?

Limitaciones de un LLM y estrategias para mitigarlas

Entidades de baja frecuencia

Si a un LLM se le presenta un problema con una formulación ligeramente atípica, incluso si la lógica subyacente es la misma, el rendimiento del modelo puede decaer drásticamente. Esto apunta a una dependencia de la forma en que la información fue presentada durante el entrenamiento, más que a una capacidad de abstracción de principios subyacentes.

Esto sucede debido a que incluso los LLMs muy grandes y avanzados, tienen dificultades con lo que se denomina "entidades de baja frecuencia” o donde la información es menos común en sus datos de entrenamiento.

Este conocimiento es difícil de capturar de forma fiable solo mediante el aprendizaje estadístico. La naturaleza estadística del entrenamiento de los LLMs significa que la información menos frecuente tiene menos patrones de los que aprender, lo que lleva a una menor robustez. Incluso si está presente en los datos de entrenamiento, su baja frecuencia dificulta que el modelo la recuerde o sintetice de forma fiable.

Una de las soluciones a este problema incluye la ingeniería de prompts, que ofrece técnicas de optimización añadiendo contexto, instrucciones o ejemplos, lo que puede mejorar significativamente la precisión y la coherencia, siendo a menudo el primer paso y suficiente para muchos casos de uso.

Las técnicas como Cadena de Pensamiento (CoT de sus siglas en inglés Chain of Thought) son métodos de creación de prompts de varios pasos que generan resultados semánticamente coherentes. La afinación (fine-tuning) de los LLM en conjuntos de datos específicos de tareas o generados sintéticamente puede mejorar la coherencia fáctica y la precisión, especialmente cuando los problemas están relacionados con un comportamiento consistente y no con la falta de contexto.

Cortes de conocimiento

Los LLMs sufren de lo que se denomina "corte de conocimiento", que significa que su base de conocimiento interna está limitada a los datos con los que fueron entrenados, lo que los hace ajenos a eventos recientes o información dinámica. Ejemplos prácticos de esta limitación incluyen la generación de desinformación o declaraciones sin fundamento en respuesta a consultas, o la provisión de información desactualizada sobre eventos ocurridos después de su fecha de corte de entrenamiento.

La naturaleza estática de los datos de preentrenamiento hace que el conocimiento del LLM esté inherentemente desactualizado para información dinámica. Esta distinción ha impulsado a la industria hacia arquitecturas de Inteligencia Artificial (IA) híbridas, siendo la Generación Aumentada por Recuperación (RAG por sus siglas del inglés Retrieval Augmented Generation) un ejemplo notable.

RAG no es solo una mejora; es un cambio de paradigma que reconoce que un LLM monolítico y único no puede manejar de manera fiable todos los aspectos del procesamiento de la información. Externaliza el componente de "conocimiento", permitiendo que el LLM se centren en su fortaleza (generación de lenguaje) mientras dependen de fuentes externas y verificables para la fundamentación fáctica. Esto sugiere que los futuros sistemas de IA robustos probablemente combinen diferentes capacidades de IA en lugar de depender de modelos todo en uno.

La Generación Aumentada por Recuperación (RAG) es un marco de IA líder que combina las capacidades generativas del LLM con sistemas externos de recuperación de información (como motores de búsqueda y bases de datos). RAG accede dinámicamente a información actualizada y específica del dominio en el momento de la inferencia, proporcionando "hechos" como parte del prompt de entrada al LLM. Esto fundamenta las respuestas en la información recuperada, reduciendo significativamente el fenómeno de las alucinaciones y proporcionando acceso a datos recientes, propietarios o en tiempo real más allá del corte de entrenamiento del modelo.

Comentarios finales

Los LLM representan una proeza tecnológica extraordinaria en la recuperación y generación de información. Si bien no se considera que realizan un proceso de razonamiento similar al humano, su capacidad para imitarlo es impresionante y ha abierto nuevas avenidas para la interacción hombre-máquina y la automatización de tareas.

No debemos olvidar que, a pesar de sus impresionantes capacidades, principalmente en escenarios familiares, estos modelos poseen limitaciones inherentes a sus mecanismos avanzados de recuperación de información. Abordar estas restricciones es fundamental para el avance de los sistemas de inteligencia artificial para asegurar su integración responsable en escenarios del mundo real.

Para construir sistemas cada vez más avanzados, es fundamental reconocer las capacidades y limitaciones de la arquitectura actual y buscar formas de mitigar las limitaciones. La reflexión continua sobre la distinción entre razonamiento y recuperación de información es crucial para guiar el desarrollo responsable y efectivo de la inteligencia artificial.

Referencias

Zhaofeng Wu, Linlu Qiu, Alexis Ross, Ekin Akyürek, Boyuan Chen, Bailin Wang, Najoung Kim, Jacob Andreas, and Yoon Kim (2024). Reasoning or Reciting? Exploring the Capabilities and Limitations of Language Models Through Counterfactual Tasks. In Proceedings of the 2024 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies (Volume 1: Long Papers), pages 1819 – 1862, Mexico City, Mexico. Association for Computational Linguistics.
Yax, N., Anlló, H. & Palminteri, S. (2024). Studying and improving reasoning in humans and machines. Communications Psychol 2, 51 (2024).
J. Wei, X. Wang, D. Schuurmans, M. Bosma, b. ichter, F. Xia, E. Chi, Q. Le, and D. Zhou. (2022). Chain-of-Thought Prompting Elicits Reasoning in Large Language Models. In Advances in Neural Information Processing Systems, 35, page 24824--24837. Curran Associates, Inc.