Proyecto Panamá
Millones de libros fueron escaneados y destruidos por IA Antrópica para entrenar Inteligencia Artificial
A principios de 2024, la dirección de la startup de inteligencia artificial Anthropic impulsó un ambicioso proyecto que intentó mantener oculto al público. « El Proyecto Panamá es nuestro esfuerzo por escanear destructivamente todos los libros del mundo », según un documento de planificación interno, hecho público a finales de enero tras un proceso judicial. « No queremos que esto se sepa »
Según el expediente, a lo largo de aproximadamente un año, la compañía gastó decenas de millones de dólares en la compra de millones de volúmenes impresos, cuyos lomos se cortaron para permitir el escaneo de las páginas. El objetivo era alimentar con el contenido los modelos de inteligencia artificial que sustentan productos como el chatbot Claude, según informa The Washington Post .
Detalles sobre el Proyecto Panamá , que no se habían divulgado previamente, han surgido en un conjunto de más de 4.000 páginas de documentos de una demanda interpuesta por los autores de Anthropic, una empresa valorada por los inversores en 183.000 millones de dólares.
Si bien la firma acordó pagar 1.500 millones de dólares para resolver la disputa en agosto, la reciente decisión de un juez federal de desclasificar varios documentos ha proporcionado un panorama más amplio de la agresividad con la que la empresa buscó acceder a los libros.
Los nuevos documentos, junto con otras presentaciones de demandas similares interpuestas contra otras empresas de tecnología, muestran hasta dónde han llegado empresas como Anthropic, Meta, Google y OpenAI para obtener las enormes cantidades de datos necesarias para "entrenar" su software.
Acciones legales
El caso Anthropic forma parte de una ola más amplia de demandas presentadas por autores, artistas, fotógrafos y medios de comunicación que acusan a empresas de inteligencia artificial de infringir derechos de autor. Los documentos judiciales describen una carrera frenética, a veces clandestina, por recopilar las obras escritas de la humanidad.
Los tribunales demuestran que los volúmenes impresos se consideraban un premio esencial. En un documento interno de enero de 2023, uno de los cofundadores de Anthropic argumentó que entrenar modelos con libros podría enseñar a la inteligencia artificial a escribir bien , en lugar de imitar el lenguaje deficiente de internet . En un correo electrónico interno de 2024, Meta describió el acceso a una biblioteca digital de libros como esencial para mantenerse competitivo.
Sin embargo, los documentos sugieren que las empresas no consideraron realista obtener el consentimiento directo de los autores y editores. En cambio, algunas empresas presuntamente recurrieron a la descarga masiva de copias piratas sin el conocimiento de los creadores, según la acusación.
En el caso de Meta, mensajes internos muestran que algunos empleados expresaron su preocupación por la posibilidad de que descargar millones de libros sin permiso pudiera infringir la ley de derechos de autor. Un correo electrónico de diciembre de 2023 indica que la práctica se aprobó tras una " escalada a MZ ", una aparente referencia al director ejecutivo Mark Zuckerberg.
En una presentación legal reciente, Anthropic admitió que uno de sus cofundadores, Ben Mann, descargó un gran volumen de libros de ficción y no ficción de LibGen, una llamada "biblioteca en la sombra", durante un período de 11 días en 2021. Posteriormente, Mann compartió con sus colegas un enlace a Pirate Library Mirror, un sitio que afirmaba abiertamente violar la ley de derechos de autor.
Anthropic afirmó, sin embargo, que los datos no se utilizaron para impulsar modelos de negocio generadores de ingresos.
Ed Newton-Rex, exejecutivo de la industria de la IA y fundador de una organización que defiende los derechos de los creadores, afirma que estas revelaciones ponen de relieve un problema estructural. « Existe una necesidad urgente de reorganizar la industria para que los creadores reciban una compensación justa por sus contribuciones esenciales », afirma.
Mientras tanto, Google, Microsoft y OpenAI también enfrentan demandas similares. La mayoría de los casos siguen pendientes, y los abogados afirman que la ley sigue siendo incierta. En dos decisiones preliminares, los jueces han dictaminado que el uso de libros para entrenar modelos de IA puede ser legal bajo el principio de " uso legítimo " si el procesamiento se considera " transformador ".
En junio, un juez federal dictaminó que Anthropic tenía derecho a usar libros para entrenar a la IA, comparando el proceso con el que utilizan los profesores para enseñar a escribir a sus alumnos. Sin embargo, el tribunal señaló que los métodos de adquisición de los materiales podrían ser un tema aparte.
Comprado, cortado, escaneado, reciclado.
Para el Proyecto Panamá , Anthropic contactó con Tom Turvey, un veterano de Silicon Valley que trabajó anteriormente en el controvertido proyecto Google Books . Inicialmente, la compañía buscó comprar volúmenes en librerías y bibliotecas, incluyendo el famoso Strand de Nueva York, pero finalmente adquirió millones de libros de librerías de segunda mano en Estados Unidos y el Reino Unido.
Los libros fueron cortados con equipos industriales, escaneados con máquinas de alta velocidad y luego enviados a reciclar.
Una sensación de incomodidad
Los documentos de las demandas contra Meta muestran que algunos empleados también tenían reservas. « Descargar torrents desde un portátil corporativo no me parece correcto », escribió un ingeniero en un mensaje interno de 2023.
En última instancia, el debate legal sigue abierto. El profesor James Grimmelmann, especialista en derecho digital, afirma que la decisión de Antropic de escanear libros físicos en lugar de recurrir a bibliotecas piratas « resultó ser una decisión inteligente » y un ejemplo de un enfoque más cauteloso en una industria sometida a una intensa presión.
Fuente: Yoga ezoteric
¿Cuál es tu reacción?