Hay compañías entrenando sus modelos de IA con Reddit sin permiso: la plataforma acaba de declararles la guerra

26 de junio de 2024 6

Las compañías de inteligencia artificial (IA) están hambrientas de datos para entrenar sus modelos. Una de las alternativas que más utilizan para saciar este apetito es el web scraping, una técnica que permite extraer y almacenar información pública de páginas web a diestra y siniestra. La mayoría de las veces esta actividad se realiza sin el consentimiento de los creadores o los licenciatarios del contenido, por lo que no existe pago alguno de por medio.

Reddit ha anunciado una medida para frenar el web scraping no deseado. La plataforma, que es el hogar de millones de conversaciones sobre una amplia variedad de temas catalogadas en subreddits, impedirá que compañías no autorizadas puedan utilizar su contenido público. Se trata de un cambio a nivel de backend, específicamente en el protocolo de exclusión del archivo robots.txt, que se pondrá en marcha “en las próximas semanas”.

Reddit, en pie de guerra con los web scrapers

El mencionado movimiento busca restringir el acceso al contenido de la firma liderada por Steve Huffman para aquellos actores que no tienen un acuerdo con la plataforma. Durante los últimos meses, recordemos, hemos sido testigos de como gigantes tecnológicos como OpenAI, propietario de ChatGPT, y Google, creador de Gemini, han formalizado alianzas con Reddit. En otras palabras, si no tienes un acuerdo, te quedas sin acceder a los datos.

Los cambios anunciados este miércoles se han visto reflejados en la Política de contenido público de la plataforma. Cabe señalar que, aunque la compañía le está declarando la guerra a los web scrapers promete seguir ofreciendo sus contenidos a investigadores y académicos. La plataforma también dice que garantizará el acceso a moderadores y organizaciones como Internet Archive, que busca preservar los contenidos en línea.

Reddit 12

En el mundo de la IA que estamos viviendo no solo importa el texto, sino también las imágenes, la música o los vídeos. Durante mucho tiempo, como hemos visto, las compañías han “raspado” la web para alimentar sus modelos con contenido de todo tipo. Firmas como OpenAI, no obstante, son esquivas a responder detallar de dónde provienen los datos que utilizan, y señalan que utilizan contenido con licencia, mediante acuerdo, y contenido “disponible públicamente”.

En Xataka

OpenAI está difuminando las ventajas de ChatGPT Plus. Suena tan arriesgado como visionario

Lo mencionado, sin embargo, no ha impedido que un gigante como The New York Times demande por infracción de derechos de autor a Microsoft y OpenAI. O que discográficas como Sony Music, Warner Music y Universal Music inicien una batalla legal contra los generadores de música Suno AI y Udio por aparentemente utilizar sus canciones. Estamos presenciando en directo la batalla por los datos para alimentar a la IA. Con el tiempo sabremos cómo acabará todo esto.

Imágenes | Reddit

En Xataka | YouTube ve un futuro en el que la IA clonará la música actual. Convencer a las discográficas no va a ser nada fácil

–
La noticia

Hay compañías entrenando sus modelos de IA con Reddit sin permiso: la plataforma acaba de declararles la guerra

fue publicada originalmente en

Xataka

por
Javier Marquez

.

Otro artículo interesante

Anthropic ha abandonado su principio más importante: ya no pausará modelos peligrosos si la competencia los saca antes

Escrito por Redacción Terra FM

Valóralo

Publicaciones similares

Ciencia y Tecnologia

Perú está comprobando que hay algo peor que la masificación turística de Japón: que los turistas dejen de llegar

24 de marzo de 2026 1

Ciencia y Tecnologia

Un “ejército” de falsos empleados está infiltrándose en compañías europeas: detrás está Corea del Norte

16 de marzo de 2026

Hay compañías entrenando sus modelos de IA con Reddit sin permiso: la plataforma acaba de declararles la guerra

Reddit, en pie de guerra con los web scrapers

Otro artículo interesante

Publicaciones similares

Perú está comprobando que hay algo peor que la masificación turística de Japón: que los turistas dejen de llegar

Un “ejército” de falsos empleados está infiltrándose en compañías europeas: detrás está Corea del Norte

Las más vistas

El 42% de empleados cree que su trabajo no existirá en la próxima década por la IA, según encuesta

Las botellas y las garrafas de agua ya no se tiran: ahora se hacen con ellas los jarrones virales con forma de fresa que puedes encontrar en Tiger o en Primark

Cinco ofertas de El Corte Inglés en tecnología y entretenimiento durante su campaña de Navidad, hoy 6 de diciembre

Nunca se me había ocurrido hacer un cuadro con rollos de papel higiénico: el resultado parece comprado en una tienda de diseño

El desayuno más fresco, bajo en hidratos y rico en proteínas, se prepara fácilmente con sólo cinco ingredientes