¿Con qué datos educamos a los algoritmos?

Por: Enrique Dans

Algunos artistas, preocupados por el desarrollo de cada vez más algoritmos capaces de crear ilustraciones a partir de una simple descripción de texto y por el posible efecto de sustitución que pueda tener lugar como consecuencia de ello, han reparado en una pequeña cláusula en los términos de uso de la Adobe Creative Cloud, el servicio de Adobe que da a sus suscriptores acceso a los programas de diseño gráfico, edición de video, diseño web y servicios en la nube. En esa cláusula, habitual en muchos servicios de este tipo, los usuarios dan permiso a Adobe para llevar a cabo análisis de sus contenidos, específicamente mediante el uso de técnicas de machine learning como el reconocimiento de patrones, con el fin de mejorar los productos y servicios de la compañía.

Esta opción, activada por defecto, puede ser desactivada por el usuario, pero como en tantos otros casos, lo habitual es no reparar en ella y no hacerlo, en parte por desidia y en parte porque genera una cierta percepción de que el producto que utilizas pueda ir, gracias a tus contribuciones y a las de otros muchos usuarios, mejorando con el tiempo. Pero claro… ¿qué ocurre cuando esa «mejora» es susceptible de convertirse en el desarrollo de algoritmos capaces de, eventualmente, sustituir a los propios artistas?

La polémica en torno al uso de asistentes como DALL·EMidjourneyStable Diffusion y otros en la creación está generando muchas preocupaciones entre los artistas. Por un lado, tiene la percepción, sustentada por la experiencia, de que sus creaciones publicadas en la red han sido obtenidas mediante web scraping y utilizadas en muchos casos para alimentar los repositorios de imágenes de estos algoritmos, y de ahí que puedas crear imágenes «en el estilo de» tal ilustrador, con su nombre y apellidos. Esto genera situaciones desasosegantes en las que los artistas comienzan a encontrarse en la red supuestas creaciones suyas, que siguen su estilo y características definitorias, pero que no han sido creadas por ellos, y que suponen una apropiación de su estilo. El estilo, claro, es un conjunto de atributos que en muchas ocasiones puede ser difícil de definir y que, por tanto puede ser complejo proteger, pero en el caso de los algoritmos de creación, que automatizan el proceso, resulta todavía más preocupante, al menos para quienes habían hecho de ello su modo de vida.

Ver más: Los ciberdelincuentes ya utilizan ChatGPT para crear herramientas maliciosas

¿Qué ocurre cuando puedes tener la impresión de que la herramienta que utilizas para crear tus obras puede estar utilizándolas para alimentar un algoritmo? ¿Y si, además, ese uso no se limita a tus obras, sino a la totalidad de tu proceso creativo, que vas almacenando en la nube de la compañía? Los artistas, en muchos sentidos, se ven sujetos a una especie de espionaje permanente, destinado además a crear herramientas cada vez mejores y con el potencial de sustituirlos.

Algunos de los comentarios de los artistas en algunas redes sociales se han hecho virales y han generado una oleada de comentarios a los que la compañía ha tenido que responder. En primer lugar, asegurando que la compañía no utiliza ningún dato almacenado por sus usuarios para entrenar sus algoritmos generativos. En segundo, que están revisando sus casos de uso. Y en tercero, que en muchos casos, esos datos se utilizan para mejorar las prestaciones del producto para cuestiones que los artistas, seguramente, valoran, como el etiquetado automático de sus creaciones para llevar a cabo búsquedas, en determinadas correcciones que el artista puede querer hacer, o en sugerencias basadas en el contexto de la imagen o de su futuro uso. Eventualmente, muchas de las características que hoy los artistas valoran mucho en los programas con los que trabajan diariamente, como los punteros inteligentes, las herramientas de selección contextuales o muchas otras, están creadas a partir de funcionalidades de machine learning, y precisan de datos con las que alimentar esos algoritmos para que funcionen adecuadamente.

¿Con qué datos educan las compañías a sus algoritmos? En estos tiempos en los que el machine learning va reduciendo cada vez más sus barreras de entrada, entender que las compañías tienen que ser transparentes y, sobre todo, respetuosas en ese proceso resulta fundamental.

Este tipo de preocupaciones han sido provocadas, en gran medida, por el comportamiento abusivo de algunas compañías. Hace algún tiempo supimos, por ejemplo, que muchas de las imágenes con licencias Creative Commons que han sido subidas por usuarios a lo largo del tiempo habían sido utilizadas para alimentar bases de datos de diversos algoritmos, en lo que supone un uso posiblemente no ilegal, pero tal vez difícil de acomodar dentro de los términos de la licencia (una cosa es subir una foto de mis amigos y ponerle licencia Creative Commons con tu mejor intención, y otra saber posteriormente que tus amigos pueden estar, por ejemplo, en una base de datos de reconocimiento facial por tu culpa).

La compañía invita a los usuarios que tengan problemas con ello a desactivar la opción correspondiente, pero de acuerdo con la legislación europea, esa opción debería ser opt-in, algo que los usuarios pueden pedir, en lugar de opt-out, algo que esos usuarios deben desactivar, lo que podría llevar a que la compañía termine teniendo que hacer frente a alguna multa. Pero más preocupante que una posible multa puede ser la pérdida de confianza de tus usuarios: si tus usuarios fieles sienten que los estás espiando para aprovecharte de sus procesos creativos y terminar sustituyéndolos, es que algo has comunicado muy mal en tus relaciones con ellos.