En EE.UU están quemando miles de millones para entrenar IAs. Esta IA china ha demostrado que no hace falta, y es gratis y open source

DeepSeek R1 es toda una revolución y se ha logrado con tan solo una pequeña fracción de los recursos que normalmente utilizan las grandes tecnológicas para entrenar a sus modelos

deepseek
2 comentarios Facebook Twitter Flipboard E-mail

Estados Unidos está realizando grandes esfuerzos en lo que respecta a mantener el liderato dentro del segmento de la inteligencia artificial generativa. El país cuenta con gigantes tecnológicos enfocados en lanzar al mercado modelos de lenguaje cada vez más potentes y precisos, así como herramientas que atraigan a usuarios y a empresas a utilizar sus servicios.

Bajo el segundo mandato presidencial de Trump también se han puesto las cartas sobre la mesa con Stargate, la macroempresa liderada por OpenAI y Softbank (entre otros socios como Microsoft y Nvidia) que busca que Estados Unidos siga siendo un referente en el campo de la IA mediante la construcción y desarrollo de tecnologías e infraestructuras a través de un presupuesto colosal de 500.000 millones de dólares.

Un modelo de IA chino que ha puesto patas arriba a la industria tecnológica

Por si fuera poco, Estados Unidos lleva un tiempo limitando la exportación de chips avanzados a China en plena guerra comercial, lo que debería haber retrasado las innovaciones del país en cuanto a inteligencia artificial. Sin embargo, China tiene un as bajo la manga y ya tiene nombre y apellidos: DeepSeek.

Si bien desde Genbeta comentábamos hace un tiempo acerca de su modelo de lenguaje, recientemente la compañía dio la bienvenida a DeepSeek R1, con un rendimiento equiparable a los modelos más avanzados de OpenAI hasta la fecha. ¿La noticia de todo esto? que se ha lanzado gratis para todo el mundo, se trata de un modelo open source y ha sido entrenado con muchísimos menos recursos que el resto de gigantes tecnológicos.

El caso de DeepSeek R1 está dando de qué hablar sobre todo por su gran potencia y los mínimos recursos necesarios para su desarrollo

Y es que ante la situación de no poder depender únicamente del hardware debido a las limitaciones impuestas por Estados Unidos, China ha tenido que buscar ideas más creativas para seguir innovando en este campo. DeepSeek la ha encontrado, y ha puesto patas arriba a toda la industria tecnológica con su monstruoso modelo de lenguaje.

Lo curioso de DeepSeek R1 es que utiliza técnicas avanzadas, como el aprendizaje por refuerzo puro, para crear un modelo de lenguaje que no solamente se equipara con los modelos más potentes del mundo, sino que se ha lanzado en código abierto, permitiendo a cualquier persona examinarlo con mucho ojo, modificarlo y desarrollarlo.

Este modelo de lenguaje demuestra una vez más que China no está fuera en la carrera de la inteligencia artificial. De hecho, la clave para su dominación podría encontrarse precisamente en el lanzamiento de modelos open source, ya que hace que sus empresas incrementen su influencia a nivel global, haciendo que puedan potencialmente cambiar el rumbo al que va dirigido la IA. Los modelos open source también atraen talento de fuera, algo crucial para el país, pues es un modo adicional de obtener recursos para contribuir en el desarrollo de la IA por parte de China.

El caso de DeepSeek R1 está dando de qué hablar sobre todo por su gran potencia y los mínimos recursos necesarios para su desarrollo. Se enfrenta sin miramientos a los modelos top de OpenAI en todo tipo de tareas, incluyendo matemáticas, código, y razonamiento complejo.

Benchmarks de infarto con recursos muy limitados

Repasando sus benchmarks, DeepSeek R1 ha conseguido un 79,8% en el test de AIME 2024 de matemáticas, en comparación a o1 de OpenAI con un 79,2%. En MATH-500, DeepSeek R1 logró un 97,3% frente al 96,3% de o1. Y en capacidades para código, DeepSeek alcanzó el percentil 96,3 en Codeforces frente al 96,6 de o1. A pesar de que toca ser cautos con los resultados en los benchmarks, queda claro que, como poco, DeepSeek ha conseguido desarrollar el primer modelo de lenguaje que le hace frente de verdad al más potente de OpenAI hasta la fecha.

Figures Benchmark Imagen: DeepSeek

Aunque lo realmente sorprendente de todo es que DeepSeek ha logrado todo esto sin los extensos recursos de una compañía como OpenAI, dependiendo de la innovación antes que de la potencia de hardware. Para ello, la compañía dice haber utilizado la implementación MLA (multi-head latent attention), la cual reduce el uso de memoria a tan solo un 5-13%, a diferencia de la arquitectura MHA, que es la que comúnmente se utiliza. Esta última se utiliza sobre todo para procesar múltiples cantidades de información de manera simultánea, pero utiliza mucha memoria de base.

Junto a ello, DeepSeek ha logrado conseguir un modelo aún más eficiente a través de una técnica a la que han denominado ‘DeepSeekMoESparse’. Se trata de una estructura en la que ‘MoE’ se refiere a ‘Mixture-of-Experts’. Esto hace que el modelo solo utilice un pequeño subset de sus componentes (‘experts’) para cada tarea, en vez de hacer trabajar a todo el sistema al completo, reduciendo significativamente los costes energéticos y potencia de computación.

benchmark Imagen: DeepSeek

DeepSeek R1 tiene un total de 671.000 millones de parámetros, aunque solamente utiliza 37.000 millones de parámetros durante la operación, lo que demuestra su eficiencia a la hora de ponerse manos a la obra. La compañía ha publicado un informe muy completo y transparente sobre su funcionamiento en Github, así como información para que cualquier usuario pueda utilizar este modelo en local.

DeepSeek fue fundada por Liang Wenfeng, uno de los inversores cuantitativos más destacados de China. Su fondo de inversiones financia el desarrollo de esta empresa. La compañía supuestamente habría entrenado su modelo de lenguaje mediante un presupuesto de algo más de 5 millones de dólares, una pequeña fracción de lo que usan compañías como OpenAI para desarrollar sus modelos de lenguaje.

Según Han Xiao, CEO de JinaAI, los integrantes de DeepSeek tienen una gran trayectoria matemática a sus espaldas. Según Xiao, contaban con un gran número de tarjetas gráficas para minado de criptomonedas y trading y DeepSeek solamente se trataba de un proyecto alternativo para sacarle partido a esas tarjetas gráficas.

Imagen de portada | DeepSeek y Marvin Meyer

En Genbeta | Ya comparan a Google con el Titanic y su histórico naufragio. La Generación Z pasa de su buscador y prefiere la IA o TikTok

Inicio