Entrenar un modelo de IA de código abierto de primer nivel cuesta unos 75 millones de dólares y genera 4.000 toneladas de CO2

August 27, 2024 · Editor · 7 min read

🌐 Read this in English →

Fuente original: Stanford Online
Este artículo es un resumen e interpretación editorial de ese contenido. Las ideas son de los autores originales; la selección y redacción son de Streamed.News.

Este programa de Stanford Online abordó varios temas. Se destacan 6 segmentos por su relevancia. Cada sección enlaza directamente al momento en el video original.

Entrenar el mejor modelo de IA disponible públicamente hoy cuesta aproximadamente lo mismo que una película de Hollywood de presupuesto medio, y la factura se multiplica por diez con cada nueva generación.

Entrenar un modelo de IA de código abierto de primer nivel cuesta unos 75 millones de dólares y genera 4.000 toneladas de CO2

Un desglose detallado de los costos de entrenamiento de Llama 3 400B de Meta —actualmente el modelo de lenguaje de gran escala más capaz disponible públicamente— sitúa la factura total en aproximadamente 75 millones de dólares: unos 52 millones en alquiler de GPU con 16.000 chips Nvidia H100 funcionando durante cerca de 70 días, más unos 25 millones estimados en salarios del personal. El proceso de entrenamiento del modelo consumió alrededor de 4.000 toneladas métricas de CO2 equivalente, comparable a 2.000 vuelos transatlánticos de ida y vuelta. Cabe destacar que el cómputo de entrenamiento quedó justo por debajo del umbral establecido por una orden ejecutiva de la administración Biden que exige un escrutinio gubernamental especial para los modelos de IA de frontera.

Estas cifras ilustran con qué rapidez se están intensificando los costos del desarrollo de la IA. Cada nueva generación de modelos de frontera multiplica el cómputo por aproximadamente diez, lo que significa que, si las tendencias actuales se mantienen, la huella de carbono por sí sola podría convertirse en un problema serio en dos o tres generaciones de modelos, aunque los números actuales siguen siendo manejables en comparación con otras actividades industriales.

"En cada nueva generación, el número de operaciones de punto flotante se multiplica esencialmente por 10, o al menos eso es lo que intentan, si disponen de suficiente energía y pueden comprar suficientes GPU."

▶ Ver este segmento — 54:56

Las leyes de escala de la IA permiten predecir el rendimiento de los modelos con años de antelación y revelan que los ajustes de arquitectura son en gran medida irrelevantes

Desde alrededor de 2020, los investigadores han establecido que la relación entre los recursos computacionales y el rendimiento de los modelos de IA sigue un patrón log-lineal fiable: duplicar los datos o el tamaño del modelo mejora el rendimiento en una cantidad predecible, sin señales de estancamiento. Esta predictibilidad ha transformado la forma en que las empresas asignan recursos: en lugar de ajustar directamente el modelo grande final, los equipos realizan experimentos con modelos más pequeños a diferentes escalas, ajustan una curva a los resultados y la utilizan para pronosticar qué configuración ofrecerá el mejor rendimiento una vez escalada masivamente.

Un influyente artículo conocido como Chinchilla cuantificó el equilibrio óptimo: para maximizar la eficiencia del entrenamiento, un modelo debería procesar unos 20 tokens de datos por parámetro. Para el despliegue en el mundo real, donde los costos de inferencia se acumulan con el tiempo, el óptimo práctico se desplaza a aproximadamente 150 tokens por parámetro, favoreciendo modelos más pequeños y más baratos de ejecutar repetidamente. La implicación más amplia es contraintuitiva: las innovaciones incrementales de arquitectura —nuevas funciones de activación, ajustes de capas— importan mucho menos que la calidad y la escala de los datos brutos, una conclusión que el conferenciante describió como algo que la comunidad investigadora ha tardado en aceptar.

"Una vez que empiezas a pensar en términos de leyes de escala, te das cuenta de que todas las diferencias de arquitectura que podemos introducir —las pequeñas y menores— solo cambian un poco la intersección. Pero en realidad, eso no importa."

▶ Ver este segmento — 40:43

Construir una IA con 'internet' requiere filtrar el 99% de su contenido

El proceso de preparación de datos para entrenar un modelo de lenguaje de gran escala es mucho más intensivo de lo que sugiere la expresión 'entrenado con internet'. Partiendo de aproximadamente 250.000 millones de páginas web —cerca de un petabyte de HTML sin procesar—, los ingenieros deben extraer texto legible, eliminar elementos estructurales como encabezados y pies de página, suprimir contenido dañino o privado, desduplicar párrafos que aparecen miles de veces en la web y aplicar filtros basados en reglas y en aprendizaje automático para descartar documentos de baja calidad. Una técnica estándar utiliza los enlaces salientes de Wikipedia como indicador de calidad, entrenando un clasificador para identificar y favorecer contenido similar al de las fuentes que Wikipedia considera fiables. Tras todo el filtrado, los conjuntos de datos utilizables han crecido desde unos 150.000 millones de tokens en los primeros benchmarks académicos hasta aproximadamente 15 billones de tokens en los modelos líderes actuales, lo que implica que el rastreo bruto se filtra en un factor de aproximadamente 100.

Las empresas raramente divulgan públicamente sus prácticas de datos, impulsadas en parte por ventajas competitivas y en parte por la exposición legal en materia de derechos de autor. La etapa final del preentrenamiento suele implicar un breve ajuste fino con un pequeño corpus de material de alta calidad —como Wikipedia— a una tasa de aprendizaje reducida, permitiendo esencialmente que el modelo haga un 'sobreajuste' con los mejores textos disponibles antes de su despliegue.

"La recopilación de datos del mundo es una parte fundamental del entrenamiento práctico de modelos de lenguaje de gran escala. Podría decirse que es, de hecho, la clave."

▶ Ver este segmento — 28:32

Ajustar fino un asistente de IA requiere apenas 2.000 ejemplos porque enseña estilo, no conocimiento

El proceso de convertir un modelo de lenguaje en bruto en un asistente de IA útil —conocido como ajuste fino supervisado— requiere muchos menos datos de los que los investigadores suponían. Estudios han demostrado que ampliar el número de ejemplos de entrenamiento de 2.000 a 32.000 produce mejoras mínimas, porque el ajuste fino no inyecta nuevo conocimiento en el modelo. En cambio, le indica que responda como un tipo específico de usuario —uno que responde preguntas directamente—, en lugar de reflejar la plena diversidad de estilos de escritura que encontró durante el preentrenamiento. El conocimiento ya fue absorbido; el ajuste fino es esencialmente una lección de formato.

El proyecto Alpaca, desarrollado por Stanford, demostró un atajo práctico: utilizar un modelo de lenguaje de generación anterior para generar 52.000 pares sintéticos de preguntas y respuestas a partir de apenas 175 ejemplos escritos por humanos, y luego ajustar finamente un modelo más pequeño con esos datos sintéticos. El resultado fue comparable al de los primeros sistemas de chatbot construidos con costosos corpus etiquetados por humanos. Este episodio ayudó a impulsar todo un subcampo de generación de datos sintéticos, ahora central en la forma en que los equipos académicos y comerciales de IA reducen el trabajo humano necesario para construir modelos asistentes.

"Todo lo que aprendes es cómo formatear tus respuestas deseadas. Tu modelo preentrenado modela esencialmente la distribución de todos los usuarios de internet; lo único que le dices al modelo es: en realidad deberías optimizar más para este tipo de usuario que para otro."

▶ Ver este segmento — 59:34

Una técnica más sencilla llamada DPO ha reemplazado en gran medida al método de aprendizaje por refuerzo que sustentaba ChatGPT

El método de alineación original de ChatGPT —el aprendizaje por refuerzo a partir de retroalimentación humana mediante un algoritmo llamado PPO— implicaba un proceso de varias etapas: recopilar clasificaciones de preferencias humanas, entrenar un modelo de recompensa separado con esas clasificaciones y luego ejecutar un bucle de aprendizaje por refuerzo notoriamente complejo. Un método posterior llamado Optimización Directa de Preferencias, o DPO por sus siglas en inglés, condensa el mismo resultado en un único paso de entrenamiento de máxima verosimilitud: aumentar la probabilidad de generar respuestas que los humanos prefirieron y reducir la de aquellas que rechazaron. Bajo ciertas suposiciones matemáticas, ambos enfoques convergen en la misma solución óptima, pero DPO no requiere un modelo de recompensa separado ni infraestructura de aprendizaje por refuerzo.

Las consecuencias prácticas han sido significativas. La complejidad de PPO —con recortes, bucles de despliegue y casos extremos mal documentados— dificultaba su implementación fiable fuera de los laboratorios con mayores recursos. DPO, siendo matemáticamente equivalente pero mucho más sencillo de ejecutar, se ha convertido en el enfoque estándar en la comunidad de IA de código abierto y se utiliza cada vez más en la industria. La hipótesis de que el propio ajuste fino supervisado puede contribuir a las alucinaciones —al entrenar modelos para producir respuestas que suenan plausibles ante indicaciones que nunca encontraron durante el preentrenamiento— ha añadido mayor urgencia a la búsqueda de métodos de alineación que no amplifiquen la falsa confianza.

"Con PPO había que recopilar preferencias humanas, luego entrenar un modelo de recompensa con máxima verosimilitud y después usar aprendizaje por refuerzo. Ahora todo lo que haces es básicamente máxima verosimilitud: mucho más sencillo."

▶ Ver este segmento — 1:09:27

Los benchmarks de IA están distorsionados por el sesgo de longitud: los modelos más verbosos obtienen mejores puntuaciones aunque no sean mejores

Evaluar modelos de IA alineados es fundamentalmente más difícil que medir el rendimiento de un modelo de lenguaje en bruto, porque las métricas estándar como la perplejidad y la pérdida de validación pierden su utilidad una vez que un modelo ha sido entrenado para maximizar las preferencias humanas en lugar de predecir distribuciones de texto. El benchmark público más fiable, Chatbot Arena, aborda esto haciendo que usuarios reales comparen a ciegas los resultados de dos modelos y voten cuál es mejor, con cientos de miles de comparaciones acumuladas. Una alternativa automatizada más económica, AlpacaEval, utiliza GPT-4 como juez y logra una correlación del 98% con las clasificaciones de Chatbot Arena a una fracción del costo.

Ambos enfoques comparten una vulnerabilidad crítica: una preferencia sistemática por las respuestas más largas. Un experimento mostró que indicar a GPT-4 que fuera verboso elevaba su tasa de victorias al 64%, mientras que pedirle que fuera conciso la reducía al 20%, enfrentándose al mismo modelo de referencia. Este sesgo de longitud es más peligroso con jueces automatizados que con humanos, porque un humano eventualmente rechaza una respuesta de cinco páginas a una pregunta simple, mientras que un juez de IA puede seguir recompensando la verbosidad indefinidamente. Aplicar técnicas de inferencia causal para controlar estadísticamente la longitud de las respuestas reduce sustancialmente la distorsión.

"Si le pedimos a GPT-4 que sea ligeramente más verboso —simplemente indicamos en el prompt 'sé verboso en tus respuestas'— obtiene una tasa de victorias del 64%. Y si le pedimos que sea conciso, obtiene un 20%. Así que hay una enorme variación dependiendo de si se le pide que sea conciso."

▶ Ver este segmento — 1:23:42

Resumen de Stanford Online · 1:44:31. Todo el mérito corresponde a los creadores originales. Streamed.News resume contenido de vídeo disponible públicamente.

Streamed.News

Esta publicación se genera automáticamente desde YouTube.

Convierte tu biblioteca de vídeos en un diario digital.

Consigue esto para tu redacción →

Modelos de lenguaje de gran escala Costos de cómputo en IA Emisiones de carbono Meta Llama Regulación de la IA Leyes de escala Chinchilla Entrenamiento de IA Eficiencia computacional Stanford Online