¿Por qué en el Perú no se ha construido un modelo de inteligencia artificial?

Julio Santisteban Pablo
Profesor del Departamento de Ciencia de la Computación de la Universidad Católica San Pablo

Hasta US$ 200 millones puede costar la creación de un modelo de inteligencia artificial como ChatGPT, y puede tomar varios meses de entrenamiento en cientos de computadores con GPU. El modelo de ChatGPT-3 costó solo entre 2 y 4 millones de dólares en 2020, mientras que el precursor de Gemini, PaLM, en 2022, requirió entre 3 y 12 millones de dólares. El costo estimado para entrenar un modelo con la calidad de GPT-4 fue de aproximadamente US$ 20 millones en 2024, con un tiempo de entrenamiento que duró cerca de dos meses.

El costo del entrenamiento de Gemini Ultra de Google, modelo basado en texto, voz e imágenes, fue de US$ 191 millones, sin incluir otros costos como salarios, soporte, mantenimiento y adquisición de datos entre otros, lo que puede aumentar el costo hasta en un 49 %. El GPT-4 de OpenAI utilizó un estimado de US$ 78 millones para su entrenamiento.

Este costo no podría ser asumido por la academia y la industria en el Perú, lo que nos relega a ser meramente usuarios de esta tecnología. La financiación para modelos de IA generativa aumentó ocho veces en relación con 2022, hasta alcanzar los US$ 25 200 millones en 2023 (Artificial Intelligence Index Report 2024, Stanford University).

El costo de desarrollo incluye una variedad de gastos escondidos. En el desarrollo de un modelo de IA se incluyen varias etapas: adquisición de datos, preparación de datos, diseño y programación del modelo en un entorno distribuido, entrenamiento del modelo, evaluación y puesta en producción. Esta última etapa de inferencia –la cual permite su comercialización– también es costosa debido a la gran cantidad de usuarios, ya que se debe mantener la misma infraestructura de entrenamiento.

Por último, está el curado de las generaciones de datos para evitar alucinaciones, el incumplimiento de la privacidad, entre otros aspectos. Los costos reportados solo se refieren a la etapa de entrenamiento.

Pero ¿realmente se conoce cómo funcionan los modelos de IA? Sí, se conoce cómo construir estos modelos de IA con exactitud, la academia tiene claro cómo hacerlo, entonces, la limitación no es tecnológica sino monetaria. Más de 170 000 artículos científicos de acceso público se han escrito en tecnologías como Transformer, BERT, ChatGTP, LLaMa, LoRa, Attention Fusion, FFF, DeepSeek entre otras.

El desarrollo científico de la IA de libre acceso ha permitido la difusión y el rápido crecimiento de distintos modelos en el mundo. En el Perú, la academia desarrolla pequeños modelos de IA con aplicabilidades puntuales y ciertas limitaciones, gracias a la información disponible en artículos científicos. La creación de nueva tecnología se basa en ideas innovadoras y en el conocimiento existente; sin embargo, muchas veces está supeditada a la inversión que pueden hacer las empresas públicas o privadas.

¿Por qué cuesta tanto el entrenamiento de los modelos de IA? Solamente para hacernos una idea, un modelo de IA calcula miles de millones de parámetros. GPT-4o utiliza aproximadamente 200 mil millones de parámetros, mientras que GPT-4o-mini tiene alrededor de 8 mil millones, y GPT-4 usa aproximadamente 1.76 billones (1 760 000 000 000) de parámetros. Un modelo de IA utiliza varios algoritmos: desde técnicas aleatorias y funciones de activación, hasta algoritmos complejos como Attention. Esto significa que un modelo de IA es una arquitectura de algoritmos.

Esta arquitectura permite almacenar y calcular esta enorme cantidad de parámetros. La arquitectura almacena los parámetros en matrices, las cuales son multiplicadas, normalizadas de diferentes formas y corregidas con el propósito de aproximarse a un objetivo. La corrección del modelo es uno de los procesos más complejos de comprender.

En la arquitectura se calcula el error del modelo y se corrigen los parámetros, para esto se usan derivadas de los millones de parámetros. Las oraciones son ingresadas a la arquitectura y procesadas; cada oración se procesa varias veces en distintos momentos.  La cantidad de datos usados alcanza algunas decenas de terabytes (10 000 000 000 000). Quizá esto nos dé algunas ideas sobre la razón de su costo.

Pero, a pesar de este panorama complejo, ¿por qué creo que el Perú debería hacer los esfuerzos para construir un modelo de IA, a pesar de los altos costos?  El Perú y su industria deberían construir modelos de IA por 5 razones:

Primero, por la obtención de soberanía tecnológica, para dejar de depender de grandes corporaciones.

Segundo, para la preservación y promoción de nuestra identidad cultural y lingüística. En el Perú, la integración del quechua y otras lenguas al español convierte a nuestra lengua en algo único y con su propio matiz.

Tercero, para impulsar la innovación local, generando un ecosistema tecnológico que puede dar lugar a startups y empleos.

Cuarto, para dar soluciones a problemas locales con inteligencia contextual local, un modelo entrenado con datos locales puede entender mejor contextos específicos y dar soluciones adecuadas.

Y, por último, la atracción de inversión y cooperación internacional en la academia e industria.

Por otro lado, no hacer nada y solo convertirse en un país consumista sería lo peor para nuestro desarrollo.

Salir de la versión móvil