El mayor conjunto de datos de imágenes de entrenamiento de IA se desconecta tras el descubrimiento de material ilícito preocupante
Un estudio de publicado por el Observatorio de Internet de Stanford ha hecho un inquietante descubrimiento: LAION-5B, el mayor conjunto de datos de imágenes utilizado para el entrenamiento de Generación de imágenes de IA modelos, contiene 3.226 imágenes sospechosas de ser material de abuso sexual infantil (CSAM). Desde entonces, LAION ha retirado su conjunto de datos del acceso público, hasta que pueda asegurarse de que están libres de cualquier contenido inseguro.
LAION-5B, un conjunto de datos de código abierto compuesto por más de 5.800 millones de pares de URL de imágenes en línea y sus correspondientes pies de foto, se utiliza para entrenar modelos de IA, entre ellos el muy popular de Difusión estable. Se ha creado utilizando Common Crawl para rastrear Internet en busca de una amplia gama de imágenes.
David Thiel y el equipo de investigadores de Stanford autores del estudio comenzaron por filtrar el conjunto de datos utilizando los clasificadores NSFW de LAION, y después se basaron en PhotoDNAuna herramienta utilizada habitualmente para la moderación de contenidos en este contexto. Dado que ver CSAM es ilegal, incluso para fines de investigación, el equipo utilizó el hashing perceptual, que crea una firma digital única para cada imagen y utiliza esa firma para compararla con una imagen de prueba y comprobar si es idéntica o similar. Además, el equipo envió las "coincidencias definitivas" para que fueran validadas por el Centro Canadiense para la Protección de la Infancia.
Tras la publicación del estudio, un portavoz de Stable Diffusion declaró a 404 Media que la empresa dispone internamente de numerosos filtros que no sólo eliminan el CSAM y otros materiales ilegales y ofensivos de los datos realmente utilizados en el entrenamiento, sino que también garantizan la limpieza de las indicaciones de entrada y de las imágenes generadas por el modelo de IA.
Según la legislación federal estadounidense, es ilegal poseer y transmitir no sólo CSAM, sino también "películas sin revelar, cintas de vídeo sin revelar y datos almacenados electrónicamente que puedan convertirse en una imagen visual" de los mismos. Sin embargo, dado que los conjuntos de datos como el LAION-5B sólo contienen direcciones URL y no las imágenes en sí, la legalidad exacta en torno a ellos no está clara. La cuestión se agrava aún más por el hecho de que el CSAM generado por IA es difícil de distinguir del CSAM real, y va en aumento. Aunque 3200 imágenes entre 5.000 millones puedan parecer insignificantes, no se puede ignorar la influencia potencial de estos datos de entrenamiento "contaminados" en el resultado de los modelos generativos de IA.
El estudio publicado por David Thiel y su equipo pone de relieve una de las más inquietantes consecuencias de la repentina proliferación de la IA. Encontrar soluciones a estas preocupaciones será una tarea lenta y difícil en los próximos años, en la que participarán a partes iguales el poder legislativo, las fuerzas del orden, la industria tecnológica, los académicos y el público en general.
Fuente(s)
Top 10 Análisis
» Top 10 Portátiles Multimedia
» Top 10 Portátiles de Juego
» Top 10 Portátiles de Juego ligeros
» Top 10 Portátiles Asequibles de Oficina/Empresa
» Top 10 Portátiles de Juego Ligeros
» Top 10 Portátiles de Oficina/Empresa Premium
» Top 10 Estaciones de Trabajo
» Top 10 Subportátiles
» Top 10 Ultrabooks
» Top 10 Convertibles
» Top 10 Tablets
» Top 10 Tablets Windows
» Top 10 Tablets de menos de 250 Euros
» Top 10 Phablets (>5.5")
» Top 10 Smartphones
» Top 10 Smartphones (≤5")
» Top 10 Smartphones de menos de 300 Euros
» Top 10 Smartphones de menos de 120 Euros
» Top 10 Portátiles de menos de 1000 Euros
» Top 10 Portátiles de menos de 500 Euros
» Top 10 Portátiles de menos de 300 Euros
» Los Mejores Displays de Portátiles Analizados por Notebookcheck