Cómo los gigantes tecnológicos están tomando atajos en la recopilación de datos para la IA

La carrera por liderar la IA se ha convertido en una búsqueda desesperada de los datos digitales necesarios para hacer avanzar la tecnología. Para obtener estos datos, empresas de tecnología como OpenAI, Google y Meta tomaron atajos, ignoraron las políticas de la empresa y debatieron eludir la ley, según un estudio del New York Times.

En Meta, propietaria de Facebook e Instagram, ejecutivos, abogados e ingenieros discutieron el año pasado comprar la editorial Simon & Schuster para obtener obras de larga duración, según grabaciones de reuniones internas obtenidas por el Times. También discutieron la recopilación de datos protegidos por derechos de autor en Internet, incluso si eso significara acciones legales. Negociar licencias con editores, artistas, músicos y la industria de las noticias llevaría demasiado tiempo, dijeron.

Al igual que OpenAI, Google ha transcrito vídeos de YouTube para recopilar texto para sus modelos de IA, dijeron cinco personas con conocimiento de las prácticas de la empresa. Esto podría potencialmente violar los derechos de autor de los videos, que pertenecen a sus creadores.

El año pasado, Google también amplió sus condiciones de servicio. Una motivación para el cambio, según miembros del equipo de privacidad de la compañía y un mensaje interno visto por The Times, fue permitir que Google aprovechara los documentos de Google disponibles públicamente, reseñas de restaurantes en Google Maps y otros materiales en línea para obtener más información. Productos de IA.

Las acciones de las empresas ilustran cómo la información en línea (noticias, obras de ficción, publicaciones en foros, artículos de Wikipedia, programas de computadora, fotografías, podcasts y videoclips) se ha convertido cada vez más en el elemento vital de la industria en auge de la IA. La creación de sistemas innovadores depende de tener suficientes datos disponibles para enseñar a las tecnologías a producir instantáneamente textos, imágenes, sonidos y videos que se parezcan a lo que crea un ser humano.