Las comunicaciones internas filtradas revelan que Nvidia rastrea diariamente toda una vida de vídeos de YouTube para entrenar el modelo de IA de vídeo, Jensen está satisfecho con el progreso

Los ingenieros de Nvidia están raspando vídeos de YouTube y otras fuentes para entrenar el modelo de base de vídeo Cosmos de la compañía. (Fuente de la imagen: Nvidia)

Las comunicaciones internas de Slack de Nvidia obtenidas por 404 Media revelaron que el personal de la empresa que trabaja en el modelo de base de vídeo Cosmos ha recopilado hasta ahora 38,5 millones de horas de vídeo de diversas fuentes, principalmente YouTube. Los empleados señalaron posibles problemas de derechos de autor, pero al parecer los ejecutivos de mayor rango dieron una "aprobación general" para seguir adelante y recopilar contenidos.

Vaidyanathan Subramaniam (traducido por Ninh Duy), Publicado 08/06/2024 🇺🇸 🇫🇷 ...

AI Cyberlaw Nvidia

Nvidia está entrenando sus Omniversos, coches autoconducidos y coches "humanos digitales" basándose en datos extraídos de "80 años de vídeos al día" de YouTube y otras fuentes, según reveló una investigación de 404 Media.

Las comunicaciones internas filtradas obtenidas por 404 Media indican que Nvidia está utilizando estos datos para entrenar su modelo de IA del mundo del vídeo apodado Cosmos (que no debe confundirse con el servicio de aprendizaje profundo Cosmos ya existente de la empresa https://www.nvidia.com/es-la/gpu-cloud/deep-learning-software/?ref=404media.co). Cosmos está pensado internamente como un modelo que impulsaría otras líneas de Nvidia, como GeForce, la arquitectura de GPU, DGX, los marcos de aprendizaje profundo, Omniverse, Avatar, el Proyecto GR00T y los vehículos autónomos.

Los ejecutivos de Nvidia apodaron a Cosmos como un modelo base de última generación"que encapsula la simulación del transporte de la luz, la física y la inteligencia en un solo lugar para desbloquear varias aplicaciones posteriores críticas para Nvidia"

404 Media accedió a mensajes internos de Slack de empleados que revelaban cómo el personal utilizaba el programa de línea de comandos yt-dlp para descargar vídeos de YouTube utilizando entre 20 y 30 máquinas virtuales de AWS que refrescaban las direcciones IP para evitar ser bloqueadas por YouTube. El sitio para compartir vídeos fue la fuente principal para el scraping de vídeos, aunque los empleados también barajaron otras fuentes como Netflix y Discovery Channel.

Las comunicaciones de Slack muestran a los empleados discutiendo las ramificaciones legales del scraping de contenido con derechos de autor para entrenar la IA, sólo para ser descartado por los jefes de proyecto como una decisión ejecutiva, y eso es algo de lo que no deben preocuparse.

Entre los canales populares de YouTube que los empleados de Nvidia han preseleccionado se encuentran MKBHD, PickUpLimes, Architectural Digest, Expedia, Mediastorm6801, 8kEarth y The CriticalDrinker, entre otros.

Cuando 404 Media se puso en contacto con ellos, tanto YouTube como Netflix dijeron que el raspado de contenidos en sus plataformas para entrenar modelos de IA es una clara violación de sus condiciones de servicio.

El uso de datos protegidos por derechos de autor para entrenar modelos de IA sigue siendo una zona gris desde el punto de vista legal. Conjuntos de datos públicos como InternVid-10M, HD-VG-130My otros basados en millones de vídeos de YouTube, pero sólo están pensados para la investigación académica y no para fines comerciales. Aunque Nvidia cuenta con investigadores académicos, el resultado acabará llegando a un producto comercial.

Ha habido pocas legislaciones en este sentido que ordenan normas de transparencia y exigen a las empresas que trabajan en modelos fundacionales de IA que colaboren con la FTC y la Oficina de Derechos de Autor. Pero las empresas no revelan necesariamente sus conjuntos de datos de origen, lo que dificulta mucho la auditoría.

A medida que las grandes empresas de IA siguen echando mano de todos los datos públicos disponibles para entrenar modelos más eficaces, los cambios legislativos son una necesidad imperiosa para garantizar la seguridad de los consumidores y proteger la propiedad intelectual de los creadores.

El año pasado, The New York Times demandó a OpenAI y Microsoft por el uso no autorizado de artículos protegidos por derechos de autor de la publicación para entrenar modelos de IA. En mayo, los artistas visuales presentaron una demanda contra Stability AI, Midjourney, DeviantArt y Runway AI por utilizar copias de sus obras para entrenar modelos de IA sin permiso.

YouTube se está convirtiendo en una mina de oro de datos para las empresas de IA. Recientemente, Wired informó que pesos pesados como Apple, Nvidia, Anthropic y Salesforce rasparon subtítulos de 173.536 vídeos de YouTube de más de 48.000 canales para entrenar su IA.

Hasta finales de mayo, el personal de Nvidia anunció internamente que había recopilado 38,5 millones de URL de vídeos, la mayoría de ellos de contenido cinematográfico. Los ingenieros también añadieron conjuntos de datos como Ego-Exo4D, Ego4D, HOI4Dy datos de juegos de GeForce Now.

Mientras que Ego-Exo4D y Ego4D pueden licenciarse tanto para uso académico como comercial, HOI4D se distribuye bajo una licencia CC BY-NC que prohíbe específicamente el uso comercial.

El equipo está entrenando actualmente un modelo 1B cada uno con 16 nodos, con planes de escalarlo a 10B.

Nvidia dijo a 404 Media por correo electrónico,"nuestros modelos y nuestros esfuerzos de investigación están en total conformidad con la letra y el espíritu de la ley de derechos de autor."

Mientras tanto, el director ejecutivo de Nvidia, Jensen Huang, parece estar contento con los progresos que está realizando su personal.

Al parecer, exclamó: "Gran actualización. Muchas empresas tienen que construir [modelos fundacionales] de vídeo FM. Nosotros podemos ofrecer un pipeline totalmente acelerado"

Conjuntos de datos remitidos para el entrenamiento de Cosmos por el científico principal de Nvidia Francesco Ferroni. (Fuente: 404 Media)

Canales populares de YouTube recomendados por el personal de Nvidia para entrenar a Cosmos. (Fuente: 404 Media)

Gráfico que muestra la distribución de vídeos recopilada a partir de 38,5 millones de URL. (Fuente: 404 Media)

SCOOP from @samleecole: Leaked Slacks and documents show the incredible scale of NVidia's AI scraping: 80 years — "a human lifetime" of videos every day. Had approval from highest levels of company despite staff legal/ethical concerns:https://t.co/DydXOyffUQ
— Jason Koebler (@jason_koebler) August 5, 2024

Fuente(s)

404 Medios de comunicación (requiere registro)

@jason_koebler en X

Artículos relacionados

Los controladores de Nvidia en Linux ahora utilizan por defecto módulos del núcleo de la GPU de código abierto. (Fuente de la imagen: logotipo de Nvidia y Tux, Wikimedia Commons)

Los últimos controladores de Nvidia para Linux utilizan por defecto módulos del núcleo de la GPU de código abierto 08/22/2024

Mecha Break se convierte en el primer juego en demostrar Nvidia ACE con la nueva RAG Nemotron-4, se lanza sigilosamente una variante RTX 4070 con VRAM GDDR6 más lenta y un precio similar 08/21/2024

Nvidia G-Sync funcionará ahora directamente en los escaladores de pantalla MediaTek sin necesidad de un módulo dedicado. (Fuente de la imagen: Nvidia)

Nvidia G-Sync a punto de abaratarse y generalizarse gracias a la colaboración de MediaTek 08/21/2024

tGP de 50 W y sin conector de alimentación (Fuente de la imagen: PNY)

La tarjeta Nvidia RTX 2000E ADA de una sola ranura para estaciones de trabajo de sobremesa se presenta en silencio como un procesador de IA de bajo consumo energético 08/16/2024

El portátil para juegos DIY con hardware de sobremesa no tiene batería, pensó (Fuente de la imagen: Socket Science)

YouTuber muestra un portátil para juegos DIY construido a partir de componentes de sobremesa 08/16/2024

El Zeromouse V35 es un ratón para juegos increíblemente ligero y minimalista que requiere cierto montaje. (Fuente de la imagen: Zeromouse)

YouTuber construye el ultraligero ratón para juegos Zerømouse 16 g con tripas Razer Viper V2 Pro 08/16/2024

La GeForce RTX 4070 se lanzará pronto como una versión ligeramente más lenta. (Fuente de la imagen: Nvidia)

La Nvidia GeForce RTX 4070 potencialmente más barata con VRAM GDDR6 se lanza el 20 de agosto 08/13/2024

Se está preparando una nueva variante de Nvidia GeForce RTX 4070 (fuente de la imagen: Nvidia)

Nvidia GeForce Se informa de que se está trabajando en una variante de RTX 4070 con VRAM GDDR6 08/06/2024

Nvidia se une a Falcon Northwest para regalar un PC para juegos con RTX 4090 08/06/2024

Se prohíbe a Nvidia vender la GPU H100 para centros de datos a clientes chinos. (Fuente de la imagen: Nvidia, ridvan-selli en Pixabay, editado)

Según los informes, contrabandistas suministran a China chips de inteligencia artificial de Nvidia prohibidos por valor de millones de dólares, mientras EE.UU. intenta endurecer el embargo comercial 08/06/2024

Nvidia RTX 3060 es actualmente la GPU más popular en la lista de la encuesta de hardware de Steam (Fuente de la imagen: Nvidia)

Un insider afirma que Nvidia ha descatalogado silenciosamente la GPU más popular del momento 08/05/2024

Microsoft añade opciones de GPU Nvidia y AMD a la oferta de PC en nube Windows 365. (Fuente de la imagen: Microsoft)

Microsoft añade opciones de GPU Nvidia y AMD a la oferta de PC en nube Windows 365 08/04/2024

El Megamini G1 es potente. (Fuente de la imagen: Geekom)

Megamini 1: El PC incluye una potente CPU, una tarjeta gráfica Nvidia preparada para juegos y refrigeración por agua en un chasis compacto 07/28/2024

Nvidia está preparando una nueva variante de la GeForce RTX 3050 (fuente de la imagen: Nvidia)

Nvidia GeForce RTX 3050 con la GPU Ada Lovelace supuestamente en preparación 07/25/2024

Es posible que tenga que esperar hasta el próximo año para las GPU de nueva generación de la serie RTX 50 de Nvidia (fuente de la imagen: Nvidia)

Las tarjetas gráficas de sobremesa Nvidia GeForce RTX 5000 podrían no lanzarse en 2024 07/22/2024

Una filtración revela una nueva app...

ZPG A1 Unicorn: Dispositivo portáti...

Editor of the original article: Vaidyanathan Subramaniam - Managing Editor - 1997 articles published on Notebookcheck since 2012

contact me via: @Geeky_Vaidy

Translator: Ninh Ngoc Duy - Editorial Assistant - 522633 articles published on Notebookcheck since 2008

contact me via: Facebook

Please share our article, every link counts!

> Análisis y pruebas de ordenadores portátiles y móviles teléfonos > Noticias > Archivo de noticias > Archivo de noticias 2024 08 > Las comunicaciones internas filtradas revelan que Nvidia rastrea diariamente toda una vida de vídeos de YouTube para entrenar el modelo de IA de vídeo, Jensen está satisfecho con el progreso

Vaidyanathan Subramaniam, 2024-08- 6 (Update: 2024-08- 6)