La endogamia digital podría colapsar los sistemas de IA

By Marcílio Santos Inteligencia Artificial, Nanotecnologia, Pc y Electrónica, Tech Comentarios desactivados

Los profetas de la inteligencia artificial (IA) y los difusores de noticias pronostican el fin del bombo de la IA generativa y hablan de un inminente «colapso del modelo» catastrófico.

Pero, ¿son realistas estas predicciones? ¿Qué es el colapso de los modelos?

El «colapso de los modelos», un concepto que se debatió en 2023 pero que ha recibido más atención recientemente, describe una situación hipotética en la que los sistemas de IA son cada vez menos eficaces a medida que aumenta la cantidad de datos generados por la IA en Internet.

Los sistemas modernos de IA se basan en el aprendizaje automático, en el que los programadores establecen el marco matemático, pero la «inteligencia» proviene del entrenamiento del sistema para reconocer patrones en los datos.

Sin embargo, estos sistemas de IA generativa requieren grandes cantidades de datos de alta calidad. Grandes empresas tecnológicas como OpenAI, Google, Meta y Nvidia recopilan continuamente terabytes de contenidos de Internet para entrenar sus modelos. Desde el auge de la IA generativa en 2022, se ha producido un aumento de los contenidos generados por IA en Internet.

Exploración de datos generados por IA para entrenar modelos

En 2023, los investigadores empezaron a explorar si los datos generados por la IA podían utilizarse solos para el entrenamiento, en lugar de depender de los datos generados por humanos. Este enfoque tiene importantes ventajas: Los contenidos generados por la IA son más baratos y menos problemáticos de recopilar que los datos humanos.

Sin embargo, los investigadores descubrieron que entrenar a la IA únicamente con datos generados por ella hace que disminuya su rendimiento. Como cada modelo aprende de los anteriores, se produce un efecto de «entrenamiento regurgitativo» que reduce tanto la calidad como la diversidad de los resultados de la IA. Por calidad se entiende aquí la utilidad, seguridad y honestidad de la IA, mientras que la diversidad se refiere a la gama de respuestas y la representación de diferentes perspectivas culturales y sociales.

En resumen, el uso excesivo de sistemas de IA puede estar contaminando las fuentes de datos esenciales para su eficacia.

¿Pueden las grandes tecnológicas filtrar simplemente los contenidos generados por IA? La verdad es que no. Las empresas tecnológicas ya invierten mucho tiempo y recursos en limpiar y filtrar los datos que recopilan, y algunas descartan hasta el 90% de los datos iniciales utilizados para los modelos de entrenamiento.

A medida que aumente la necesidad de excluir los contenidos generados por IA, estos esfuerzos serán aún más difíciles. Además, distinguir los contenidos generados por IA será cada vez más difícil con el tiempo, lo que hará que el proceso de filtrado de datos sintéticos sea menos viable desde el punto de vista económico.

En última instancia, la investigación indica que los datos humanos siguen siendo esenciales, ya que son la base de la «inteligencia» de la IA.

Retos en la adquisición de datos de alta calidad

Hay indicios de que los desarrolladores tienen cada vez más dificultades para obtener datos de alta calidad. Por ejemplo, la documentación de la versión GPT-4 señalaba un número inusualmente elevado de personal dedicado a gestionar los aspectos del proyecto relacionados con los datos.

También es posible que nos estemos quedando sin nuevos datos generados por humanos, ya que algunas estimaciones sugieren que el suministro podría agotarse en 2026.

Esto puede explicar por qué OpenAI y otras empresas están formando asociaciones exclusivas con grandes empresas como Shutterstock, Associated Press y NewsCorp, que poseen amplias colecciones de datos humanos patentados que no están disponibles en Internet.

Sin embargo, el riesgo de un colapso catastrófico del modelo puede ser exagerado. La mayoría de las investigaciones se centran en escenarios en los que los datos sintéticos sustituyen por completo a los humanos, pero en realidad es probable que los datos humanos y los generados por IA crezcan de forma paralela, lo que mitigaría el riesgo de colapso.

Un escenario futuro más probable implica una gama diversa de plataformas de IA generativa que crean y publican contenidos, en lugar de un único modelo dominante. Esta diversidad aumenta la resistencia frente al colapso.

Esto subraya la importancia de que los reguladores promuevan una competencia sana frenando los monopolios en la industria de la IA y apoyando el desarrollo de tecnologías de interés público.

También hay peligros más sutiles asociados a una sobreabundancia de contenidos generados por IA.

Puede que un exceso de contenidos sintéticos no ponga en peligro el progreso del desarrollo de la IA, pero sí amenaza el bien público digital de la Internet humana.

Impacto de la ayuda de la IA

Por ejemplo, los investigadores observaron un descenso del 16% en la actividad del sitio de programación StackOverflow un año después del lanzamiento de ChatGPT, lo que sugiere que la asistencia de la IA podría estar disminuyendo las interacciones directas dentro de algunas comunidades en línea.

El auge de los contenidos generados por inteligencia artificial dificulta la búsqueda de material no publicitario

Cada vez es más difícil distinguir los contenidos generados por humanos de los generados por IA. Una solución podría ser la marca de agua o el etiquetado de los contenidos generados por IA, un concepto apoyado recientemente por la legislación provisional del Gobierno australiano y debatido por muchos expertos.

Por otra parte, la creciente uniformidad de los contenidos generados por la IA puede reducir la diversidad sociocultural, lo que podría conducir a la eliminación cultural de algunos grupos. Existe una necesidad urgente de investigación interdisciplinar para abordar las implicaciones sociales y culturales de los sistemas de IA.

Proteger las interacciones y los datos humanos es crucial, tanto para nuestro propio bienestar como para mitigar potencialmente el riesgo de un futuro colapso del modelo.

Read the original article on: Science Alert

La endogamia digital podría colapsar los sistemas de IA