Materia prima (Enrique Estellés, Las Provincias)
Noticia publicada el
martes, 4 de marzo de 2025
A principios del siglo XX era habitual la celebración de ferias de ganado en Reino Unido. A estas ferias acudían tanto ganaderos como vecinos que se acercaban a disfrutar de las diferentes actividades que allí se realizaban: carreras de caballos, juegos, concursos de repostería, etc. Y obviamente, no faltaban las exposiciones ganaderas y las competiciones de productos básicos (por ejemplo, la calabaza más grande).
En 1907, en una de estas ferias que se celebraba en la ciudad inglesa de Plymouth, uno de los ganaderos planteó un concurso. Tras escoger y exponer un buey de tamaño considerable, vendió tarjetas selladas y numeradas a 6 peniques cada una para que, quien quisiera, tratase de estimar el peso de la res una vez sacrificada y “preparada”. En la tarjeta debían escribir tanto el peso estimado, como sus datos personales para poder recibir un premio en caso de acertar.
Participaron un total de 800 personas. Las 787 tarjetas legibles que al final entraron en concurso pertenecían tanto a lugareños como a ganaderos y carniceros experimentados.
Tras tener acceso a estar tarjetas, sir Francis Galton (matemático, estadístico, antropólogo y un largo etcétera) pudo trabajar con las diferentes estimaciones realizadas, usando los datos para publicar un artículo titulado ‘Vox populi’.
De los resultados publicados, y tras revisiones más actuales, destacan dos cosas. En primer lugar, que solo una persona acertó el peso exacto de la res: 1197 libras (lo que viene a ser 543,40 kilos). Y, en segundo lugar, y más sorprendente todavía, que la segunda estimación que coincidió con el peso exacto fue la media de todas las estimaciones.
Este hecho es utilizado por algunos autores, como James Surowiecki en su libro Wikinomics, para ilustrar el fenómeno de la inteligencia colectiva o sabiduría de la multitud.
En este ejemplo, hay una serie de datos que son tratados de una determinada manera para obtener un resultado. Pero ¿qué es más importante? ¿las estimaciones recogidas (los datos) o el método utilizado?
Galton calculó también la mediana obteniendo el valor de 1.207 libras, mientras que al usar la media el cálculo coincidió exactamente. Por lo tanto, el método importa. Sin embargo, es verdad que el método no hubiera arrojado un resultado semejante sin los datos sobre los que trabajó.
Ambos son fundamentales: unos buenos datos tratados con el método adecuado. En el caso de la inteligencia artificial generativa ocurre lo mismo: tan importante es el método como los datos. Y el problema es que la cantidad y calidad de estos últimos comienza a presentar problemas.
Por un lado, un reciente artículo de Nature asegura que los modelos de lenguaje “se están quedando sin datos”. Las fuentes disponibles de las que extraer los tokens (palabras o partes de palabras) que se utilizan para entrenar estos algoritmos representarán el total de los datos públicos en Internet en el año 2028. Esto es un problema porque, para muchos especialistas en IA, cuantos más datos se utilizan para entrenar un modelo, mejor es dicho modelo (aunque otros investigadores como Gary Marcus ya han advertido que existe un techo y que llegará un momento, si no ha llegado ya, en que más datos no impliquen ningún tipo de mejora). Las alternativas que se plantean para obtener nuevos datos pasan por acceder a documentos privados, conversaciones de chats, etc. Alternativa que plantea graves problemas de privacidad.
Por otro lado, está el problema de la calidad de los nuevos datos públicos y accesibles en Internet. Debido a la facilidad con la que se puede generar texto coherente con los modelos de lenguaje, este texto ha comenzado a proliferar e inundar multitud de páginas web. Desde blogs personales hasta las conocidas como “granjas de noticias”, que suponen un peligro mayor.
Estas granjas de noticias, simulando ser medios de comunicación, comparten contenido que muchas veces resulta ser impreciso (en el mejor de los casos) o incluso falso (en el peor), promoviendo la desinformación y la desconfianza de los usuarios. El objetivo es generar contenido que atraiga gente para obtener ingresos a partir de la publicidad (estas webs suelen tener decenas de anuncios). Poco importa en estos sitios web la verdad.
Y esta proliferación de texto generado por IA supone también un problema. Diferentes estudios demuestran que usar datos sintéticos (datos generados por algoritmos, entre los que se encuentran los modelos de lenguaje) para entrenar nuevas versiones de modelos de lenguaje produce lo que se denomina “colapso del modelo”: cuanto más se entrena un modelo con datos sintéticos, peor es su rendimiento.
Este “colapso del modelo” me parece especialmente relevante, más aún en un mundo en el que muchos ponen a la IA casi en un altar, considerando que lo que hace, lo hace siempre (o casi siempre) mejor que las personas. En este mundo aparece este “colapso del modelo” que obliga a preguntarse… ¿qué tiene nuestro texto que no tiene el generado por una IA, por muy correcto, coherente y mejor que nos parezca este último?
Documents to download
-
Tribuna(.pdf, 874,26 KB) - 0 download(s)