Las polémicas sobre cómo los conjuntos de datos entrenan a las herramientas de Inteligencia Artificial (IA) han hecho que el público desconfíe de la IA.
Una percepción común es que la IA está recopilando cualquier información que pueda raspar en línea para entrenar sus algoritmos, haciendo caso omiso de la privacidad de las personas y de los requisitos de las leyes de protección de datos.
Los escándalos públicos -como el de Clearview AI por el rastreo ilegal de Facebook- han situado a las plataformas de redes sociales en primera línea de la preocupación pública por la IA y la privacidad de los datos.
En este artículo, aclaro cómo se entrenan las herramientas de IA Generativa y cómo pueden utilizarse los datos disponibles públicamente como parte del proceso siguiendo ciertos requisitos legales y técnicos.
¿Qué es la IA?
La inteligencia artificial o IA se refiere a las máquinas que pueden realizar funciones similares a las humanas.
Hay diferentes tipos de IA, por ejemplo:
- La IA débil realiza una estrecha gama de funciones basadas en patrones fijos que fue programada para detectar.
- La IA fuerte realiza funciones complejas encontrando sus propios patrones en un conjunto de datos, casi como si tuviera "mente" propia, y puede seguir aprendiendo de forma independiente.
Por supuesto, a diferencia de los humanos, la IA no tiene una mente real como tú y yo. En su lugar, se basa en los tipos de conjuntos de datos que se le dan.
Además, a diferencia de los humanos, la IA puede detectar patrones en cantidades gigantescas de información de una forma que nosotros sencillamente no podemos.
Utiliza esos patrones para completar su función principal.
Por ejemplo, cuando se pide a una IA que escriba un blog que cree un contenido, genera su respuesta accediendo a un conjunto de datos, que a veces contiene cientos de gigabytes, si no terabytes, de texto procedente de diversas fuentes.
¿Cómo se entrenan los modelos de IA?
Para entender cómo se entrenan los modelos de IA, es importante tener en cuenta que las herramientas de IA popularizadas recientemente se califican como IA Generativa (GenAI), entre las que se incluyen:
- ChatGPT-3 y 4 de OpenAI
- PaLM 2 y Bard de Google
- CoPilot de GitHub
GenAI es una rama de la IA especializada en generar contenidos, ya sea en forma de texto, imágenes, vídeos o código.
Utiliza algoritmos denominados grandes modelos lingüísticos (LLM) que necesitan grandes cantidades de datos para aprender y entrenarse.
El entrenamiento de un LLM incluye una fase de entrenamiento inicial, también llamada fase de preentrenamiento, seguida de un ajuste fino del modelo en tareas específicas o áreas de mejora. Ambas fases requieren grandes cantidades de datos, entre miles y decenas de miles de ejemplos.
Veamos lo que dicen algunos líderes del sector sobre cómo entrenan sus herramientas GenAI.
ChatGPT
Empecemos por ChatGPT, el LLM de OpenAI, que enumera las tres categorías siguientes en su FAQ:
- Información de dominio público
- Información licenciada por OpenAI a terceros
- Información facilitada por usuarios o formadores humanos
Lee la captura de pantalla a continuación para ver más sobre cómo OpenAI afirma que entrenó a ChatGPT.

Técnicamente, GPT-3 se entrenó con 45 terabytes de datos, mientras que GPT-4, utilizado por ChatGPT Plus, se estima que se entrenó con un petabyte de datos.
Para que se haga una idea de la cantidad de información que esto supone, un terabyte representaría 500 horas de vídeos en alta definición, y un petabyte son 1000 terabytes.
Bard
Veamos ahora cómo se entrenó Bard, el chatbot de inteligencia artificial de Google.
Enumeran las siguientes fuentes:
- Conversaciones sobre el bardo
- Información relacionada con el uso del producto
- Ubicación del usuario
- Comentarios de los usuarios
Puede obtener más información en la siguiente captura de pantalla del aviso de privacidad de Bard.

Quiero señalar cómo Google hace referencia a que utiliza datos para entrenar a Bard en consonancia con su Política de Privacidad, que menciona lo siguiente en relación con la recopilación de datos de fuentes de acceso público para el entrenamiento de IA:
"Por ejemplo, podemos recopilar información disponible públicamente en Internet o procedente de otras fuentes públicas para ayudar a entrenar los modelos de IA de Google y crear productos y funciones como Google Translate, Bard y las funciones de IA en la nube. O bien, si la información de su empresa aparece en un sitio web, podemos indexarla y mostrarla en los servicios de Google."
CoPilot
Por último, vamos a leer cómo GitHub utiliza los datos para entrenar a su programador de IA, CoPilot.
Más información en la siguiente captura de pantalla, procedente de la página de características de CoPilot de GitHub.

Al igual que OpenAI y Google, GitHub también hace referencia a la información disponible públicamente como fuente para el entrenamiento de su IA.
Los distintos tipos de datos utilizados para entrenar la IA
GenAI necesita grandes cantidades de datos y utiliza distintas fuentes para entrenar estos algoritmos, primero como recurso primario para su desarrollo y después para mejorar su precisión y desarrollar sus campos de aplicabilidad.
De los tres ejemplos que acabo de exponer, podemos deducir que las entidades utilizan tres grandes categorías de datos para entrenar modelos de IA.
Datos disponibles públicamente
La mayoría de las GenAI utilizan datos públicos para su entrenamiento.
Los datos de acceso público se definen como cualquier información accesible al público con ciertas restricciones sobre cómo acceder a ella, utilizarla y distribuirla.
Estas restricciones suelen proceder de los derechos de propiedad o intelectuales sobre los datos que posee la entidad que los hace públicos.
Por ejemplo, las publicaciones públicas de Facebook entran dentro de esta definición.
![]()
Las publicaciones hechas públicas por el usuario son accesibles a otras partes, pero la página condiciones de servicio de Facebook limita su usabilidad y distribución.
Más concretamente, en el caso de la formación de modelos de IA, la recopilación automatizada de estas publicaciones está limitada por sus Condiciones de recopilación automatizada de datos, que impiden a terceros recopilarlos sin el permiso por escrito de Facebook.
Así que, aunque existen algunas restricciones, su disponibilidad general la convierte en un gran recurso para el entrenamiento de modelos de IA.
Como resultado, es una fuente predominante para la fase de preentrenamiento de los modelos de IA, y las fuentes más comunes de esta información incluyen:
- Archivos web: Sitios como Common C rawl rastrean la web para extraer datos brutos de páginas, metadatos, textos y otros recursos accesibles, archivándolos. Los conjuntos de datos de preentrenamiento de GPT-3 comprendían el 60% del corpus de Common Crawl.
- El contenido público de las redes sociales: Estas plataformas representan inmensos conjuntos de datos que ofrecen información sobre millones de comportamientos y características. Cada plataforma tiene diferentes condiciones que restringen los datos que las entidades externas pueden recopilar, y utilizan datos públicos para entrenar sus propios modelos de IA, como Meta y X/Twitter.
- Repositorios de acceso abierto: Fuentes como los repositorios públicos de código de Github albergan datos de investigación de entidades públicas o privadas y ofrecen acceso libre y permanente a conjuntos de datos para que cualquiera pueda utilizarlos.
- Las instituciones públicas abren bases de datos: Sitios como los Archivos Nacionales de Estados Unidos suelen incluir datos institucionales sobre diversos temas, como economía, historia, ciencias, humanidades, etc.
Datos abiertos frente a datos disponibles públicamente
Al definir los datos públicos, también es importante mencionar los datos abiertos.
A menudo utilizados indistintamente, los datos abiertos son una subcategoría de los datos públicos caracterizada por la ausencia de restricciones en su acceso, uso y distribución.
Algunas de las fuentes más importantes de datos abiertos son los gobiernos, que disponen de portales de datos abiertos en los que se comparten los datos recopilados por las instituciones públicas.
Los datos abiertos suelen tener una licencia abierta, estar bien estructurados y ser legibles por máquinas.
Datos de uso del producto
Otra fuente de datos para entrenar modelos de IA son los datos de uso de productos, que los usuarios generan al utilizar un producto.
Dado que esto supone que un producto ya es funcional, esta fuente de datos se utiliza durante la fase de ajuste fino del entrenamiento de la IA para proporcionar información sobre el comportamiento y las preferencias de los usuarios.
Puede clasificar el uso de los productos en dos categorías:
- Datos de contenido del usuario: Los datos contenidos en el contenido generado por los usuarios cuando interactúan con el producto y pueden incluir textos, imágenes, vídeos, código y, en general, cualquier información que el usuario decida compartir con el producto.
- Metadatos: Datos generados en relación con los datos de contenido del usuario, como en "datos sobre datos", y que suelen incluir detalles sobre los datos de contenido del usuario, como la hora de creación, la fuente, el tamaño, la ubicación, la configuración del dispositivo, etc.
Pero, dado que este tipo de datos está vinculado a los usuarios, se considera información personal.
La forma en que un producto recopila y utiliza este tipo de datos está sujeta a las leyes de privacidad y a las condiciones de servicio de las empresas.
Datos del producto con licencia
Al igual que los datos de uso de los productos, los Datos de Productos con Licencia se obtienen a través de terceros a los que la IA tiene licencia.
Mediante una licencia, una empresa puede utilizar modelos de IA desarrollados y entrenados por otra empresa para que funcionen dentro de sus productos.
Por ejemplo, así es como Microsoft obtuvo una licencia para utilizar la tecnología Chat GPT-3 de OpenAI para su producto.
Sin embargo, es difícil saber exactamente hasta qué punto OpenAI recopila datos de uso de productos para mejorar su modelo de IA.
Palabras de un experto
Cuando se le preguntó por las implicaciones que la IA ha tenido en la privacidad de los datos para empresas y consumidores, Anupa Rongala, CEO de Invensis Technologies, dijo: "La IA ha transformado la privacidad de los datos haciendo la seguridad más inteligente, pero también más vulnerable."
Y añadió: "Las empresas analizan ahora vastos conjuntos de datos en tiempo real, detectando las amenazas más rápido que nunca. Al mismo tiempo, la automatización impulsada por la IA aumenta los riesgos, ya que los algoritmos a menudo recopilan, procesan e infieren información sensible sin el consentimiento claro del usuario."
"Las empresas que adopten una IA responsable no solo cumplirán la normativa, sino que también generarán confianza a largo plazo". Anupa Rongala, consejera delegada de Invensis Technologies
Para ella, los mayores retos son: "Los sesgos, el acceso no autorizado a los datos y la excesiva dependencia de la toma de decisiones impulsada por la IA."
"Lograr un equilibrio es posible: una gobernanza clara, la supervisión humana y unas prácticas éticas de IA no son negociables.
¿La legislación sobre protección de datos permite entrenar IA con datos públicos?
De todas las fuentes utilizadas para entrenar modelos de IA, los datos disponibles públicamente constituyen el principal recurso, en primer lugar por su disponibilidad, pero también porque apenas existen restricciones de acceso, uso y distribución.
En consecuencia, desde la aparición de las herramientas GenAI se ha producido un aumento de la escala y la frecuencia de la recopilación de datos a disposición del público.
Desde un punto de vista normativo, los datos disponibles públicamente -en la medida en que se califican de información personal- están menos regulados por las leyes de privacidad que la información personal no pública.
La dimensión "pública" sugiere que, en algún momento, el individuo al que pertenece la hizo pública, renunciando a las expectativas de privacidad.
En esta sección, me centraré en las leyes de privacidad de la UE y de EE.UU. y explicaré cómo definen los datos personales disponibles públicamente y qué exige cada una de ellas para su recogida legal.
Legislación sobre protección de datos en la UE
En la UE, la rgpd no define los datos personales de acceso público, lo que significa que no hay diferenciación entre datos de acceso público y datos personales.
En aplicación, la rgpd se aplica a cualquier dato personal, independientemente de su fuente.
En consecuencia, los requisitos de notificación a los responsables del tratamiento de datos que establece el artículo 14 en relación con la recopilación de información de fuentes distintas del propio interesado se aplican a la recopilación de datos públicos en virtud de rgpd.
En particular, es necesario un propósito y una base jurídica para el tratamiento de dichos datos personales.
Lo que dice rgpd sobre los datos públicos
Aunque rgpd no define los datos públicos, sí los menciona y exige a los responsables del tratamiento que revelen si los datos proceden de fuentes públicamente disponibles en el artículo 14.
Además, el artículo 9 establece normas que se aplican a categorías especiales de datos personales y parece limitar los requisitos cuando se trata de datos disponibles públicamente.
Si el tratamiento se refiere a datos personales manifiestamente hechos públicos por el interesado, no se requiere el consentimiento explícito ni otra base jurídica como la enumerada en el artículo 9 (principalmente leyes y reglamentos específicos o el establecimiento, ejercicio o defensa de reclamaciones legales).
Así pues, cuando se trata de entrenar modelos de IA con datos personales de acceso público en el ámbito de la rgpd, podemos deducir que una empresa tendría que seguir varios pasos:
- Primer paso: elegir una base jurídica para entrenar modelos de IA utilizando datos disponibles públicamente. Ya se trate de consentimiento, contrato, interés legítimo u obligación legal, debe elegirse una base jurídica y aplicarse sus requisitos con arreglo a lo dispuesto en el artículo 6.
- Segundo paso: informar a los interesados de que sus datos personales de acceso público han sido tratados para entrenar modelos de IA, de conformidad con el artículo 14.
- Tercer paso: Entrenar modelos de IA en categorías especiales de datos personales (datos que revelen el origen racial o étnico, las opiniones políticas, las creencias religiosas o filosóficas, etc.) de acuerdo con los requisitos del artículo 9, es decir, sólo los datos manifiestamente hechos públicos por los interesados o cuando el interesado dé su consentimiento explícito, y ninguna otra ley lo impida.
Sabiendo esto, es digno de mención que la UE haya empezado a actuar específicamente sobre la formación de modelos de IA.
En marzo de 2023, la autoridad italiana de protección de datos, el Garante, publicó una orden de ejecución contra OpenAI.
Entre los diversos incumplimientos detectados en ChatGPT, una de las principales críticas fue que OpenAI no disponía de una base jurídica en virtud del artículo 6 rgpd para tratar datos personales para el entrenamiento inicial de los algoritmos.
Del mismo modo, en octubre de 2022, la CNIL francesa dictó una orden judicial contra Clearview AI y multó a la empresa.
Entre varias infracciones de rgpd , se determinó explícitamente que las prácticas de rastreo web de Clearview AI para entrenar su software de reconocimiento facial infringían las obligaciones de base jurídica del artículo 6.
La Ley de IA de la UE
Europa está ahora a la vanguardia de la regulación de la IA después de que el Parlamento aprobara la Ley de IA de la UE.
El año pasado, hablé con el abogado especializado en privacidad Anokhy Desai, que en aquel momento dijo: "Todas las miradas están puestas en la ley de IA de la UE, que lleva ya unos años en preparación. Se espera que se apruebe a principios del año que viene, lo que significaría una fecha de finales de 2025 o principios de 2026 para su entrada en vigor."
"Todas las miradas están puestas en la Ley de IA de la UE". Anokhy Desai, Abogado de Privacidad | CIPP/US, CIPT, CIPM, CIPP/C, CIPP/E, FIP
Ahora parcialmente en vigor, la ley esboza principalmente los requisitos de transparencia para GenAI y coloca la tecnología en diferentes niveles de riesgo.
Desai añade: "La propia Ley de IA adopta un enfoque basado en el riesgo para regular la IA, y una reciente disposición añadida a la ley de IA exigiría a "las empresas que desplieguen herramientas de IA generativa, como ChatGPT... que revelen cualquier material protegido por derechos de autor utilizado para desarrollar sus sistemas"".
Sin embargo, la Ley de AI de la UE no dicta qué información puede utilizarse con fines de formación.
"Aún no se sabe si futuras enmiendas, excepciones o normas delimitarán los tipos aceptables de datos disponibles públicamente", dice Desai. "Por su naturaleza pública, no se añade privacidad retroactiva a esos datos".
Legislación sobre protección de datos en EE.UU.
En EE.UU., algunos estados han adoptado un enfoque diferente respecto a los datos disponibles públicamente, todo lo contrario de la normativa de la UE.
Desai afirma: "Entre las leyes de privacidad de ámbito estatal que han entrado en vigor este año, un puñado incluyen disposiciones sobre IA, como las limitaciones de la CPRA a la retención de datos, el intercambio de datos y el uso de información personal sensible con IA."
Pero las siguientes leyes estatales han excluido los datos disponibles públicamente de la definición de información personal y, por tanto, de la aplicación y el ámbito de estas leyes:
- Ley de Privacidad del Consumidor de California (CCPA)
- Ley de Protección de Datos de los Consumidores de Virginia (VCDPA)
- Ley de Privacidad de Colorado (CPA)
Tomemos como ejemplo la CCPA modificada por la CPRA y leamos a continuación cómo define en parte "información personal" y "a disposición del público".

En consecuencia, los datos disponibles públicamente no están sujetos al requisito de notificación de la CCPA ni a los derechos de los consumidores a la supresión y la exclusión voluntaria de las ventas y el intercambio.
"Aunque ninguna de estas leyes menciona el uso de datos disponibles públicamente para entrenar modelos de IA", dice Desai, "el aumento exponencial de la legislación propuesta sobre IA apunta a la posibilidad de que se proponga un proyecto de ley de este tipo en el futuro."
La falta de protección de los datos públicos puede explicar las recientes polémicas sobre algunas empresas que utilizan esta información para entrenar modelos de IA sin obtener ningún tipo de consentimiento u otra base legal.
Por ejemplo, en agosto de 2023, Zoom estuvo en el centro de una polémica por sus cláusulas condiciones de servicio sobre el uso de información personal para entrenar modelos de aprendizaje automático e IA.
Del mismo modo, OpenAI, Microsoft y Google también se enfrentan a demandas colectivas en Estados Unidos por sus prácticas de extracción de datos para el entrenamiento de modelos de IA.
¿Pueden las plataformas de redes sociales utilizar sus datos para entrenar la IA?
Como hemos visto, las redes sociales constituyen una inmensa reserva de datos -públicos o no- y pueden ser un recurso para el entrenamiento de modelos de IA.
En general, que los datos sean públicos o privados depende de la configuración de privacidad que el usuario elija en la plataforma que utilice.
Las distintas plataformas tienen alcances únicos en cuanto a lo que puede ser público y distintos enfoques sobre cómo otros pueden utilizar estos datos para entrenar modelos de IA.
Veamos brevemente algunas de las plataformas más populares en la siguiente sección.
Facebook e Instagram
Facebook e Instagram entran en el ámbito de aplicación de las políticas de Meta relativas a los datos públicos.
En primer lugar, sí, ambas plataformas utilizan datos disponibles públicamente de su plataforma para entrenar la IA de Meta, como informó recientemente el Presidente de Asuntos Globales de Meta, Nick Clegg.
En cuanto a la recopilación de datos públicos por parte de terceros para el entrenamiento de modelos de IA, las dos plataformas condiciones de uso no lo permiten sin su permiso expreso, que sólo podemos suponer que no conceden a los competidores.
A continuación, puedes consultar las Condiciones de recopilación de datos de Facebook.

En la siguiente captura de pantalla, puedes leer las Condiciones de Instagram.

X/Twitter
Al igual que Meta, los términos de X (antes Twitter) mencionan el uso de datos disponibles públicamente para entrenar los modelos de aprendizaje automático de las empresas, según informa Techcrunch.
Además, durante el lanzamiento de xAI, Elon Musk declaró que utilizarán tuits públicos para entrenar a su nueva IA.
En cuanto a dar acceso a terceros a los datos públicos de la plataforma, X actualizó específicamente sus términos para prohibir cualquier rastreo o scraping para evitar el entrenamiento de IA.
Puede ver estos términos en la siguiente captura de pantalla.

Resumen
El entrenamiento de modelos de IA ha suscitado recientemente mucha preocupación por su inmenso apetito de datos, incluidos los personales.
Pero aprovechar la información disponible públicamente se ha convertido en la norma para los desarrolladores de IA porque las leyes de privacidad son más permisivas con este tipo de datos.
Sin embargo, los últimos acontecimientos indican que los reguladores, el público y las empresas de IA todavía tienen que construir un terreno común para hacer crecer prácticas de formación de IA más fiables, entre otras cosas:
- Sanción a Clearview AI por recoger ilegalmente fotos públicas
- Las demandas colectivas contra los grandes actores de la IA
- Respuesta pública negativa a Zoom's condiciones de servicio en el verano de 2023
Un primer paso hacia esta confianza podría ser la ratificación y aplicación de la Ley de AI de la UE, que las instituciones europeas ultimaron en 2024.
En cualquier caso, los datos personales deben seguir protegidos conforme a la legislación vigente, y debemos seguir informándonos sobre los datos públicos y su uso.
