Los investigadores sugieren que OpenAI entrenó sus modelos con libros de O’Reilly de pago

OpenAI se ha enfrentado a múltiples acusaciones de utilizar contenidos protegidos por derechos de autor sin permiso para entrenar sus modelos de IA. Un nuevo documento del AI Disclosures Project, una organización centrada en la transparencia de la IA, hace una seria afirmación de que OpenAI se ha basado cada vez más en libros no públicos y sin licencia para entrenar sus modelos avanzados de IA.
Los modelos de IA funcionan como sofisticados motores de predicción, entrenados en vastos conjuntos de datos como libros, películas y programas de televisión, para aprender patrones y generar respuestas basadas en instrucciones. Cuando un modelo «escribe» un ensayo o «dibuja» una imagen, simplemente se basa en su amplio entrenamiento para aproximarse, en lugar de crear algo completamente nuevo.
Aunque muchos laboratorios de IA, entre ellos OpenAI, han recurrido a datos generados por la IA para entrenar modelos cuando se quedan sin datos del mundo real, pocos han abandonado por completo las fuentes del mundo real. Entrenar exclusivamente con datos sintéticos podría perjudicar el rendimiento del modelo.
AI Disclosures Project sugiere que OpenAI utilizó libros de pago de O’Reilly para entrenar GPT-4o
AI Disclosures Project, una organización sin ánimo de lucro fundada por el magnate Tim O’Reilly y el economista Ilan Strauss, sugiere en su artículo que OpenAI probablemente utilizó libros de pago de O’Reilly Media para entrenar su modelo GPT-4o. Según el artículo, O’Reilly Media, dirigida por Tim O’Reilly, no tiene ningún acuerdo de licencia con OpenAI.
Los coautores del artículo señalaron que «GPT-4o, el modelo más avanzado y capaz de OpenAI, muestra un fuerte reconocimiento del contenido de pago de los libros de O’Reilly, especialmente en comparación con el anterior modelo GPT-3.5 Turbo». Y añaden: «En cambio, GPT-3.5 Turbo muestra un mayor reconocimiento de las muestras de libros de O’Reilly disponibles públicamente».
El artículo utilizó un método llamado DE-COP, introducido por primera vez en un estudio académico de 2024, que detecta contenidos protegidos por derechos de autor en los datos de entrenamiento del modelo lingüístico. Este «ataque de inferencia de pertenencia» comprueba si un modelo puede distinguir entre textos de autoría humana y paráfrasis generadas por IA del mismo contenido. Si tiene éxito, sugiere que el modelo puede haber encontrado el texto durante el entrenamiento.
Los coautores analizan los conocimientos de los modelos de OpenAI sobre los libros de O’Reilly Media
Los coautores del artículo -O’Reilly, Strauss y el investigador de IA Sruly Rosenblat- examinaron los conocimientos de GPT-4o, GPT-3.5 Turbo y otros modelos de OpenAI sobre los libros de O’Reilly Media, tanto antes como después de las fechas límite de entrenamiento. Utilizaron 13.962 fragmentos de párrafos de 34 libros de O’Reilly para estimar la probabilidad de que un fragmento concreto estuviera incluido en los datos de entrenamiento.
Los resultados mostraron que GPT-4o reconocía muchos más contenidos de pago de libros de O’Reilly que los modelos más antiguos, en particular GPT-3.5 Turbo. Esto es así incluso teniendo en cuenta factores como la mayor capacidad de los modelos más recientes para identificar texto de autoría humana.
Los coautores concluyen: «Es probable que GPT-4o reconozca, y por tanto tenga conocimiento previo, de muchos libros no públicos de O’Reilly publicados antes de su fecha de corte de formación».
Los coautores se apresuran a aclarar que sus hallazgos no son pruebas definitivas. Reconocen que su método experimental no es infalible y que OpenAI podría haber recopilado extractos de libros de pago copiándolos y pegándolos en ChatGPT.
Los coautores no evaluaron los últimos modelos de OpenAI
Para complicar aún más las cosas, los coautores no evaluaron los últimos modelos de OpenAI, incluidos GPT-4.5 y modelos de «razonamiento» como o3-mini y o1. Es posible que estos modelos más recientes no hayan sido entrenados con libros de O’Reilly de pago, o que lo hayan sido con una porción menor de datos en comparación con GPT-4o.
Dicho esto, es bien sabido que OpenAI ha estado buscando activamente datos de entrenamiento de mayor calidad, abogando por menos restricciones en el uso de contenidos protegidos por derechos de autor. La empresa incluso ha contratado a periodistas para que le ayuden a perfeccionar los resultados de sus modelos. Esta tendencia se refleja en toda la industria de la IA, con empresas que contratan a expertos en campos como la ciencia y la física para incorporar sus conocimientos a los sistemas de IA.
Es importante señalar que OpenAI paga al menos por algunos de sus datos de entrenamiento, con acuerdos de licencia con editores de noticias, redes sociales, bibliotecas de medios de comunicación y otros. La empresa también ofrece mecanismos de exclusión, aunque imperfectos, que permiten a los titulares de derechos de autor marcar los contenidos que prefieren que no se utilicen para la formación.
No obstante, dado que OpenAI se enfrenta a múltiples demandas en relación con sus prácticas en materia de datos de formación y el tratamiento de la legislación sobre derechos de autor en los tribunales estadounidenses, el documento de O’Reilly añade más escrutinio al enfoque de la empresa.
Read the original article on: TechCrunch
Read more: OpenAI Intends to Launch a New Open AI Language Model in the Next Few Months
Deja una respuesta