Abres ChatGPT. Escribes algo. Y en segundos recibes una respuesta que parece humana.
Pero ChatGPT no es el que te responde. ChatGPT es la interfaz, la caja bonita. El "cerebro" que hay detrás de esa respuesta es el LLM.
Y no solo ChatGPT. Claude, Gemini y Copilot funcionan igual por debajo. Cada empresa tiene su regimiento de LLMs, unos más potentes, otros más baratos, especializados en código...
¿Y cómo funciona? Eso es lo que vemos hoy.
Qué es un LLM y cómo aprende a predecir
LLM: Large Language Model. Modelo de lenguaje grande.
Dentro hay una red neuronal: capas de neuronas artificiales conectadas entre sí. Cada conexión tiene un número asociado, su peso, que determina cuánta influencia tiene sobre la capa siguiente. Esos pesos son lo que la industria llama parámetros. Cuando lees que GPT-4 tiene 1,8 billones de parámetros, significa que hay 1,8 billones de esas conexiones, cada una con su número. Ahí es donde vive todo lo que el modelo sabe.
Al principio del entrenamiento todos esos pesos son aleatorios. El modelo no sabe nada. Y entonces empieza el proceso que lo convierte en lo que conoces.
Antes de seguir, un concepto clave: el modelo no trabaja con palabras enteras sino con tokens. Un token es un fragmento de texto: puede ser una palabra completa, media palabra o un signo de puntuación. Es la unidad mínima con la que opera el modelo. Todo lo que entra y sale pasa por este formato.
Se le pasan millones de textos reales: libros, artículos, webs, código... Para cada fragmento, el modelo intenta predecir cuál es el siguiente token. Compara su predicción con lo que realmente venía en el texto. Calcula el error y lo propaga hacia atrás mediante un proceso llamado backpropagation, que determina qué pesos contribuyeron al fallo y los ajusta un poco en la dirección correcta.
Ese ciclo se repite miles de millones de veces. Cada vuelta, los pesos mejoran un poco. Al cabo de semanas de cómputo, los pesos han dejado de ser aleatorios: ahora codifican, repartidos entre todas las conexiones, los patrones del lenguaje humano.
No hay una neurona que "sabe" que París es la capital de Francia. Ese conocimiento está distribuido entre millones de pesos que, juntos, producen la predicción correcta cuando se les pregunta.
¿Y quién decide lo que es correcto?
Durante el preentrenamiento, nadie. Lo correcto es simplemente el siguiente token del texto real. El modelo ve un fragmento y tiene que predecir lo que viene después. La respuesta ya está en los propios datos. No hace falta que ningún humano etiquete nada.
Pero una vez que el modelo sabe predecir texto, todavía no sabe ser útil ni seguro. Ahí entra el fine-tuning: el modelo se refina con ejemplos de conversaciones bien hechas y con valoraciones de evaluadores humanos que señalan qué respuestas son mejores. Este proceso se llama RLHF (Reinforcement Learning from Human Feedback).
El conocimiento viene del preentrenamiento. El comportamiento conversacional viene del fine-tuning.
¿Cómo predice cuando le hablas?
El texto que escribes entra a la red, se convierte en tokens, y cada token en una lista de números que fluye por todas las capas. Al final el modelo obtiene una distribución de probabilidades sobre qué token debería venir después.
Imagina que le escribes: "La capital de Francia es". El modelo calcula que el siguiente token tiene un 97% de probabilidad de ser París, un 1% de ser Lyon, un 0,5% de ser Berlín... Elige el más probable, lo añade, y repite el proceso con el texto ya actualizado. Token a token, hasta completar la respuesta.
Ojo!: cuando un LLM te responde con total seguridad, no significa que lo sepa. Significa que esa respuesta era la más probable estadísticamente.
La duda que surge ahora es: Pero si el modelo va token a token, ¿cómo sabe en la frase "El banco junto al río estaba lleno de…" que "banco" es un asiento y no una entidad financiera? Necesita relacionar tokens que pueden estar muy lejos entre sí en el texto. Eso lo resuelve un mecanismo llamado atención, y es lo siguiente que veremos.