Un generador aleatorio de mierda: la inteligencia artificial

mpr21                                                                                                                                  Redacción

 

La inteligencia artificial es uno de los fenómenos ideológicos más apasionantes de la posmodernidad, aunque aún hay quien cree que se trata de algo meramente técnico o informático que se escapa a su comprensión.

Ocurre como con la universidad: a medida que a los jóvenes estudiantes no les resulta suficiente con un título de licenciado, sino que siguen cursos de posgrado, masters y doctorados, corren el riesgo de acabar absolutamente idiotizados por sus profesores.

A la universidad no se debe ir con la esperanza de aprender algo, sino sólo de conseguir un título académico.

Lo mismo que los estudiantes, los modelos de inteligencia artificial hay que adiestrarlos con cantidades cada vez mayores de datos. La esperanza de los técnicos es que los modelos mejoren con una digestión cada vez mayor de materia prima. Algunos van más lejos y llegan a decir que serán capaces de superar a los humanos en la ejecución de determinadas tareas.

Un artículo de investigación publicado en julio por la revista Nature confirma que es un error. Al final los modelos acaban en el canibalismo: devoran contenidos generados por la propia inteligencia artificial.

Lo llaman el “colapso del modelo” y acabará siendo cada vez más común. El hallazgo se suma al creciente escepticismo sobre la trayectoria a largo plazo de la inteligencia artificial y la imposibilidad de recuperar las gigantescas inversiones desembolsadas en esta industria (2).

Los chatbots de inteligencia artificial funcionan con grandes modelos de lenguaje entrenados con una cantidad casi inconcebible de datos (billones de palabras, en algunos casos) extraídos de enciclopedias, artículos, páginas web, foros… Al final del proceso es como “radio macuto”. Una vez que un mensaje se transmite de una fuente original sucesivamente, la información pierde, se deteriora o se empobrece.

Es lo que ocurre con el vocabulario técnico o científico. Cuando el modelo de inteligencia artificial maneja pocas fuentes, mantiene la precisión original. Pero las sucesivas aportaciones lo deterioran porque el modelo absorbe las palabras más comunes, que son más numerosas, hasta acabar en las vulgaridades y los tópicos.

En este caso la cantidad no se transforma en calidad, sino todo lo contrario. Al final un modelo de inteligencia artificial acaba aprendiendo sólo de los errores. Los errores de un modelo se ven exacerbados por el siguiente, alejando a la inteligencia artificial de la realidad.

El artículo demuestra que la inteligencia artificial es un arma de doble filo. Cuando un modelo de lenguaje se entrena varias veces con contenido generado por la propia inteligencia artificial, los resultados comienzan a delirar y se vuelven absurdos.

Carl Bergstrom, que estudia en la Universidad de Washington los flujos de información, describió a Galactica, un modelo elaborado por Meta/Facebook, como un “generador aleatorio de mierda”, debido a la forma en que fue entrenado para reconocer palabras y unirlas. Fabrica respuestas que suenan convincentes, pero que no son otra que “mierda”.

Con la tecnología actual es inevitable que la inteligencia artificial, lo mismo que las universidades, acabe produciendo sólo porquería porque inevitablemente los futuros modelos de inteligencia artificial se entrenarán con datos producidos por sus predecesores, a medida que los resultados generados por la inteligencia artificial, llamados “datos sintéticos”, se difundan por la web y se infiltren en las bases de datos en línea.

Las empresas de inteligencia artificial han intentado contruir modelos sólo con datos de “buena calidad” generados por seres humanos. Pero eso es más costoso. OpenAI, el creador de ChatGPT, ha gastado millones de dólares para asociarse con editores como News Corp. y Axel Springer para entrenar sus modelos.

Tampoco está claro que esos datos sean suficientes para satisfacer la voracidad de las empresas de tecnología.

Como mínimo es necesario impedir el “canibalismo”: que los modelos de inteligencia artificial no estén contaminados con “datos sintéticos” fabricados por ella misma.

En última instancia, la inteligencia artificial es tan buena como los datos que digiere.

(1) https://www.nature.com/articles/s41586-024-07566-y
(2) https://www.bloomberg.com/news/articles/2024-07-24/ai-fever-cools-sending-nasdaq-100-into-1-trillion-tailspin

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *