IA y consumo energético: el costo invisible de los modelos de lenguaje | N-Byte

El entusiasmo por la inteligencia artificial generativa ha eclipsado una conversación importante: el impacto energético y ambiental de entrenar y operar modelos de lenguaje a escala. No se trata de frenar la innovación, sino de entender el costo real para tomar decisiones informadas sobre cuándo y cómo usar estas tecnologías.

Los números del entrenamiento

Entrenar un modelo de lenguaje grande tiene un costo energético enorme. Los investigadores de la Universidad de Massachusetts estimaron en 2019 que entrenar un solo modelo BERT de grandes dimensiones emitía aproximadamente 284 toneladas de CO₂ equivalente —similar a cinco autos durante toda su vida útil. Desde entonces, los modelos han crecido en órdenes de magnitud.

OpenAI, Google y Anthropic no publican cifras exactas de consumo energético de sus modelos, pero investigaciones independientes y filtraciones de informes de sostenibilidad sugieren que modelos como GPT-4 requirieron decenas de gigavatios-hora de electricidad en el entrenamiento. La ubicación del datacenter y la mezcla energética del proveedor determinan si esa electricidad viene de renovables o de combustibles fósiles.

El costo de inferencia: el que más importa en el tiempo

El entrenamiento ocurre una sola vez. La inferencia —cada consulta que hace un usuario— ocurre miles de millones de veces. Estudios comparativos estiman que una consulta a ChatGPT consume entre 10 y 100 veces más energía que una búsqueda en Google, dependiendo de la longitud del prompt y la respuesta.

Multiplicado por cientos de millones de usuarios diarios, el impacto acumulado es significativo. La consultora Goldman Sachs proyecta que la demanda eléctrica de los datacenters relacionados con IA se multiplicará por cuatro entre 2023 y 2030, llegando al 8% de la demanda eléctrica total de Estados Unidos.

Qué está haciendo la industria

Las grandes tecnológicas han hecho compromisos de carbono neto cero, en su mayoría anclados en créditos de carbono y acuerdos de compra de energía renovable (PPA). La calidad de estos compromisos varía considerablemente: comprar créditos de un bosque en otro continente no es lo mismo que mover el datacenter a una región con 100% de energía renovable en tiempo real.

En el lado técnico, hay progresos reales: modelos más pequeños con capacidades comparables (Gemma, Phi, Llama 3 8B), técnicas de cuantización que reducen el consumo de inferencia a costo mínimo de calidad, y arquitecturas como Mixture of Experts que activan solo una fracción de los parámetros por consulta.

Decisiones prácticas para equipos de ingeniería

Cuando diseñes un sistema con IA, estas consideraciones tienen impacto:

¿Necesitas el modelo más grande? GPT-4o Mini o Claude Haiku consumen significativamente menos energía que sus versiones completas para tareas donde la diferencia de calidad no importa.
Cachea respuestas cuando sea posible: si el mismo prompt se ejecuta muchas veces, guardar la respuesta elimina inferencias redundantes.
Elige proveedores con transparencia de carbono: Google Cloud y Azure publican métricas de carbono por región; puedes elegir desplegar en las regiones con menor intensidad de carbono.
Evalúa si la IA es la herramienta correcta: para tareas que un algoritmo determinista puede hacer igual de bien, usarlo tiene un costo energético mucho menor.

La sostenibilidad de la IA no es un problema del que los ingenieros puedan desentenderse. Las decisiones de arquitectura y selección de modelos que tomamos hoy tienen consecuencias energéticas reales.