DeepSeek Está Causando Sensação no Mundo—Veja o Porquê

By Marcílio Santos Nanotecnologia, Tech Comentarios desactivados

La empresa china de inteligencia artificial DeepSeek ha tenido un gran impacto en la industria tecnológica al lanzar modelos de IA altamente eficientes que rivalizan con las ofertas avanzadas de empresas estadounidenses como OpenAI y Anthropic.

Establecida en 2023, DeepSeek ha alcanzado sus logros utilizando mucho menos financiamiento y poder de cómputo que sus rivales.

La semana pasada, la empresa presentó su modelo “razonador” R1, lo que generó entusiasmo entre los investigadores, sorprendió a los inversionistas y provocó reacciones de los principales actores de la IA. El 28 de enero, DeepSeek fue más allá al presentar un modelo capaz de procesar tanto imágenes como texto.

Entonces, ¿qué ha logrado exactamente DeepSeek y cómo lo ha conseguido?

En diciembre, DeepSeek presentó su modelo V3, un modelo de lenguaje grande altamente capaz que rivaliza con el rendimiento del GPT-4 de OpenAI y el Claude 3.5 de Anthropic.

Como otros modelos, el V3 puede cometer errores o generar información incorrecta, pero sobresale en tareas como responder preguntas, escribir ensayos y generar código de computadora. En pruebas de resolución de problemas y razonamiento matemático, ha superado al ser humano promedio en algunos casos.

Se informa que el costo de entrenar el V3 fue de alrededor de $5.58 millones, mucho menos que el GPT-4, que requirió más de $100 millones para su desarrollo.

DeepSeek afirma haber entrenado el V3 utilizando alrededor de 2,000 GPUs especializadas H800 de NVIDIA, muchas menos que algunos competidores, que según se informa, han utilizado hasta 16,000 de los chips H100 más potentes.

El 20 de enero, la empresa presentó el R1, un modelo “de razonamiento” diseñado para abordar problemas complejos paso a paso. Estos modelos sobresalen en tareas que requieren comprensión contextual y razonamiento interconectado, como la comprensión lectora y la planificación estratégica.

El R1 es una versión mejorada del V3, refinada a través del aprendizaje por refuerzo. Su rendimiento parece comparable al del O1 de OpenAI, lanzado el año pasado. DeepSeek también aplicó la misma técnica para crear versiones “de razonamiento” de modelos más pequeños y de código abierto que pueden ejecutarse en computadoras personales.

Impacto de DeepSeek

Este lanzamiento ha generado un gran interés en DeepSeek, aumentando la popularidad de su aplicación de chatbot impulsada por el V3 y causando un gran revuelo en el mercado tecnológico. Las reacciones de los inversionistas han llevado a una fuerte caída en los precios de las acciones, con NVIDIA perdiendo aproximadamente $600 mil millones en valor de mercado al momento de escribir.

La principal innovación de DeepSeek radica en mejorar la eficiencia, logrando un rendimiento fuerte con menos recursos. La empresa ha introducido dos técnicas innovadoras que podrían influir en la investigación de IA de manera más amplia.

La primera involucra un concepto matemático conocido como “esparsidad”. Los modelos de IA contienen una gran cantidad de parámetros (el V3 tiene alrededor de 671 mil millones), pero solo una pequeña porción se utiliza para un dato dado. Identificar qué parámetros son necesarios es un desafío, pero DeepSeek desarrolló un método novedoso para predecir y entrenar solo los parámetros relevantes, lo que reduce significativamente los recursos de entrenamiento necesarios.

Mejoras en el almacenamiento y compresión de datos en el V3

El segundo avance está relacionado con cómo el V3 gestiona el almacenamiento de datos en la memoria de la computadora. DeepSeek ha ideado una técnica de compresión eficiente que hace que almacenar y recuperar la información esencial sea más rápido y efectivo.

DeepSeek ha lanzado sus modelos y técnicas bajo la Licencia MIT abierta, lo que permite a cualquiera descargarlos, modificarlos y usarlos libremente.

Si bien este movimiento podría desafiar a las empresas de IA que dependen de modelos propietarios para obtener ganancias, es una gran victoria para la comunidad de investigación de IA en general.

Actualmente, la investigación en IA a menudo exige un poder de cómputo inmenso, lo que limita la capacidad de los investigadores universitarios y de aquellos fuera de las grandes empresas tecnológicas para realizar experimentos. Sin embargo, los métodos centrados en la eficiencia de DeepSeek podrían reducir estas barreras, haciendo que los experimentos y desarrollos sean más accesibles.

Para los consumidores, el acceso a la IA también podría volverse más asequible. Más modelos podrían ejecutarse directamente en dispositivos personales como laptops y teléfonos inteligentes, reduciendo la dependencia de servicios en la nube con tarifas de suscripción.

Para los equipos de investigación con gran financiamiento, una mayor eficiencia puede no ser tan transformadora. Aún queda por ver si el enfoque de DeepSeek conducirá a modelos de IA con un rendimiento general superior o simplemente a aquellos que requieren menos recursos para entrenar y ejecutar.

Read the original article on: Science Alert

DeepSeek Está Causando Sensação no Mundo—Veja o Porquê