La IA genera más ideas innovadoras de investigación que los expertos humanos
Ya están aquí los primeros resultados estadísticamente significativos: Las IAs de Grandes Modelos de Lenguaje (LLM) no sólo son capaces de generar ideas de investigación científica de nivel experto, sino que sus ideas se consideran más innovadoras y emocionantes que las de los expertos humanos, según las evaluaciones de los expertos.
Los recientes avances en los LLM han despertado el entusiasmo de los investigadores por su potencial para transformar el descubrimiento científico. Modelos como ChatGPT y Claude de Anthropic han demostrado su capacidad para producir y validar de forma autónoma nuevos conceptos de investigación.
Ésta era una de las muchas tareas en las que la gente creía que la IA nunca podría superar a los humanos: generar nuevos conocimientos y hacer descubrimientos científicos, en lugar de limitarse a combinar la información existente a partir de sus datos de entrenamiento.
IA multimodal: una nueva frontera en la investigación original
Sin embargo, al igual que la creación artística, la composición musical, la codificación e incluso la comprensión del subtexto o el lenguaje corporal, las IA multimodales actuales parecen capaces de producir investigaciones realmente originales, a menudo más innovadoras que las ideas generadas por los humanos.
Hasta hace poco, ningún estudio había explorado este potencial. En un nuevo estudio, más de 100 expertos en procesamiento del lenguaje natural (PLN) (doctores y posdoctorados de 36 prestigiosas instituciones) compitieron contra «agentes de ideación» impulsados por IA. Sus ideas de investigación fueron juzgadas por expertos humanos en función de su originalidad, entusiasmo y viabilidad.
El Procesamiento del Lenguaje Natural (PLN) es una rama de la IA centrada en facilitar la comunicación entre humanos y máquinas, permitiendo que ambos se «entiendan», no sólo en términos de sintaxis básica, sino también en cuanto a matices, tono e inflexión emocional.
En el estudio, 49 expertos humanos desarrollaron ideas sobre siete temas de PNL, mientras que un modelo de IA entrenado por los investigadores generó ideas sobre los mismos temas. Para motivar a los participantes, el estudio ofrecía 300 dólares por idea y una bonificación de 1.000 dólares a los cinco mejores conceptos generados por humanos, lo que animaba a presentar propuestas claras y viables.
Estandarización de las propuestas
Una vez presentadas todas las propuestas, se empleó un LLM para estandarizar el estilo de redacción de cada una de ellas, manteniendo al mismo tiempo el contenido original. Con ello se pretendía crear condiciones más equitativas y garantizar que el estudio fuera lo más ciego posible.
Un panel de 79 expertos humanos revisó todas las propuestas en una evaluación ciega, proporcionando un total de 298 evaluaciones, y cada idea recibió entre dos y cuatro revisiones independientes. Los resultados mostraron que las ideas generadas por IA superaban a las de los investigadores humanos en cuanto a novedad y emoción. Aunque las IA se clasificaron ligeramente por debajo en viabilidad y ligeramente por encima en eficacia en comparación con los humanos, estas diferencias no fueron estadísticamente significativas.
Identificar las limitaciones
El estudio reveló algunos puntos débiles en los LLM, como la falta de diversidad de ideas y las dificultades con la autoevaluación. A pesar de recibir instrucciones de no repetirse, el LLM a menudo lo hacía. Además, los LLM tuvieron problemas de coherencia a la hora de revisar y puntuar las ideas, mostrando una baja concordancia con los juicios humanos.
El estudio también señala que juzgar la «originalidad» de una idea es subjetivo, incluso entre expertos. Para averiguar si los LLM son realmente más adecuados para el descubrimiento científico autónomo, los investigadores planean involucrar a más participantes expertos en un estudio de seguimiento. Esta vez, las ideas tanto de la IA como de los humanos se desarrollarán plenamente en proyectos para evaluar su impacto en el mundo real.
La poca fiabilidad de los modelos lingüísticos avanzados
Estos primeros resultados son ciertamente reveladores. La humanidad se enfrenta ahora a un reto poco habitual: el de los modelos lingüísticos avanzados. Aunque estos modelos pueden realizar hazañas notables, siguen siendo poco fiables y propensos a lo que las empresas de IA denominan «alucinaciones», o lo que otros llamarían fabricaciones.
Aunque las IA pueden manejar grandes cantidades de papeleo, el método científico exige rigor, y no hay lugar para «alucinaciones». Ya es preocupante que las estimaciones sugieran que las IA son coautoras de al menos el 10% de los artículos de investigación.
Por otro lado, no podemos ignorar el potencial de la IA para acelerar el progreso, como se vio con el sistema GNoME de DeepMind, que condensó 800 años de descubrimiento de materiales en meses, produciendo recetas para 380.000 nuevos cristales inorgánicos con potencial para aplicaciones revolucionarias.
Al ser la tecnología que evoluciona más rápidamente, muchos de los defectos actuales de la IA podrían solucionarse en los próximos años. Algunos investigadores creen incluso que nos acercamos a la superinteligencia general, en la que las IA superarán los conocimientos de los expertos en la mayoría de los campos.
Observar cómo las IA dominan rápidamente habilidades que antes creíamos definían la singularidad humana, incluida la generación de ideas novedosas, es una experiencia extraña. El ingenio humano parece estar superando a los humanos, pero por ahora, el mejor camino a seguir es una asociación entre la inteligencia orgánica y la artificial, siempre y cuando alineemos nuestros objetivos.
Si esto fuera una competición, sería IA: 1, humanos: 0 para esta ronda.
Read the original article on: New Atlas
Read more: Rolls-Royce Gets $6M for Nuclear Space Reactor Development