Kontroversen über die Art und Weise, wie Datensätze Werkzeuge der künstlichen Intelligenz (KI) trainieren, haben die Öffentlichkeit misstrauisch gegenüber KI gemacht.
Eine weit verbreitete Auffassung ist, dass die KI alle Informationen sammelt, die sie online abgreifen kann, um ihre Algorithmen zu trainieren, und dabei die Privatsphäre des Einzelnen und die Anforderungen der Datenschutzgesetze missachtet.
Öffentliche Skandale - wie das illegale Scraping von Facebook durch Clearview AI - haben soziale Medienplattformen in den Mittelpunkt der öffentlichen Besorgnis über KI und Datenschutz gerückt.
In diesem Artikel erläutere ich, wie generative KI-Tools trainiert werden und wie öffentlich verfügbare Daten als Teil des Prozesses unter Einhaltung bestimmter rechtlicher und technischer Anforderungen verwendet werden können.
Was ist KI?
Künstliche Intelligenz oder KI bezieht sich auf Maschinen, die menschenähnliche Funktionen ausführen können.
Es gibt zum Beispiel verschiedene Arten von KI:
- Eine schwache KI führt eine begrenzte Anzahl von Funktionen aus, die auf festgelegten Mustern basieren, auf die sie programmiert wurde.
- Starke KI führt komplexe Funktionen aus, indem sie ihre eigenen Muster in einem Datensatz findet, fast so, als hätte sie einen eigenen "Verstand", und kann selbständig weiterlernen.
Im Gegensatz zum Menschen hat die KI natürlich keinen wirklichen Verstand, wie Sie und ich ihn haben. Stattdessen verlässt sie sich auf die Arten von Datensätzen, die ihr zur Verfügung gestellt werden.
Außerdem kann die KI im Gegensatz zum Menschen Muster in gigantischen Informationsmengen erkennen, was wir einfach nicht können.
Sie verwendet diese Muster, um ihre Hauptfunktion zu erfüllen.
Wenn Sie beispielsweise einen KI-Blogschreiber bitten, Inhalte zu erstellen, generiert er seine Antwort, indem er auf einen Datensatz zugreift, der manchmal Hunderte von Gigabyte, wenn nicht gar Terabyte an Text aus verschiedenen Quellen enthält.
Wie werden KI-Modelle trainiert?
Um zu verstehen, wie KI-Modelle trainiert werden, ist es wichtig zu wissen, dass die in letzter Zeit populär gewordenen KI-Tools als generative KI (GenAI) bezeichnet werden:
- ChatGPT-3 und 4 von OpenAI
- Googles PaLM 2 und Bard
- Der CoPilot von GitHub
GenAI ist ein Zweig der künstlichen Intelligenz, der sich auf die Erstellung von Inhalten in Form von Text, Bildern, Videos oder Code spezialisiert hat.
Es verwendet Algorithmen, die als Large Language Models (LLMs) bezeichnet werden und zum Lernen und Trainieren große Datenmengen benötigen.
Die Ausbildung eines LLM umfasst eine anfängliche Ausbildungsphase, die auch als Pre-Trainingsphase bezeichnet wird, gefolgt von einer Feinabstimmung des Modells auf bestimmte Aufgaben oder verbesserungswürdige Bereiche. Beide Phasen erfordern große Datenmengen, die Tausende oder Zehntausende von Beispielen umfassen.
Schauen wir uns an, was ein paar Branchenführer darüber sagen, wie sie ihre GenAI-Tools trainieren.
ChatGPT
Beginnen wir mit ChatGPT, dem LLM von OpenAI, das in seinen FAQ die folgenden drei Kategorien aufführt:
- Öffentlich zugängliche Informationen
- Von OpenAI lizenzierte Informationen von Dritten
- Von Nutzern oder menschlichen Ausbildern bereitgestellte Informationen
Lesen Sie den Screenshot unten, um mehr darüber zu erfahren, wie OpenAI angeblich ChatGPT trainiert hat.

Technisch gesehen wurde GPT-3 auf 45 Terabyte Daten trainiert, während GPT-4, das von ChatGPT Plus verwendet wird, schätzungsweise auf ein Petabyte Daten trainiert wurde.
Um Ihnen eine Vorstellung davon zu geben, wie viele Informationen das sind, würde ein Terabyte 500 Stunden HD-Videos entsprechen, und ein Petabyte sind 1000 Terabytes.
Bard
Schauen wir uns nun an, wie der KI-Chatbot von Google, Bard, trainiert wurde.
Sie führen die folgenden Quellen auf:
- Bard-Gespräche
- Informationen zur Verwendung des Produkts
- Standort des Benutzers
- Benutzer-Feedback
Weitere Informationen finden Sie im folgenden Screenshot aus der Datenschutzerklärung von Bard.

Ich möchte darauf hinweisen, dass Google die Verwendung von Daten für das Training von Bard mit seinen Datenschutzrichtlinien in Einklang bringt, in denen das Sammeln von Daten aus öffentlich zugänglichen Quellen für das KI-Training wie folgt beschrieben wird:
"So können wir beispielsweise Informationen sammeln, die online oder aus anderen öffentlichen Quellen öffentlich zugänglich sind , um die KI-Modelle von Google zu trainieren und Produkte und Funktionen wie Google Translate, Bard und Cloud-KI-Funktionen zu entwickeln . Wenn die Informationen Ihres Unternehmens auf einer Website erscheinen, können wir sie indizieren und in Google-Diensten anzeigen.
CoPilot
Zum Schluss lesen wir, wie GitHub Daten nutzt, um seinen KI-Programmierer CoPilot zu trainieren.
Weitere Informationen finden Sie im folgenden Screenshot, der von der CoPilot-Funktionsseite von GitHub stammt.

Wie OpenAI und Google verweist auch GitHub darauf, dass es sich für sein KI-Training auf öffentlich verfügbare Informationen stützt.
Die verschiedenen Datentypen, die zum Trainieren von KI verwendet werden
GenAI benötigt große Datenmengen und nutzt verschiedene Quellen, um diese Algorithmen zu trainieren - zunächst als primäre Ressource für ihre Entwicklung und dann, um ihre Genauigkeit zu verbessern und ihre Anwendungsbereiche zu erweitern.
Aus den drei Beispielen, die ich gerade behandelt habe, können wir schließen, dass Unternehmen drei Hauptkategorien von Daten verwenden, um KI-Modelle zu trainieren.
Öffentlich verfügbare Daten
Die meisten GenAI nutzen öffentlich verfügbare Daten für Trainingszwecke.
Öffentlich zugängliche Daten sind definiert als alle Informationen, die der Öffentlichkeit zugänglich sind, wobei der Zugang, die Nutzung und die Verbreitung der Daten gewissen Einschränkungen unterliegen.
Diese Einschränkungen ergeben sich häufig aus den Eigentums- oder geistigen Rechten an den Daten, die die Einrichtung, die die Daten veröffentlicht, besitzt.
So fallen zum Beispiel die öffentlichen Beiträge von Facebook unter diese Definition.
![]()
Vom Nutzer veröffentlichte Beiträge sind für andere Parteien zugänglich, aber die Nutzungsbedingungen von Facebook schränken ihre Nutzbarkeit und Verbreitung ein.
Im Falle des Trainings von KI-Modellen ist die automatische Erfassung dieser Beiträge durch die Bedingungen für die automatisierte Datenerfassung eingeschränkt, die verhindern, dass externe Parteien diese Daten ohne die schriftliche Genehmigung von Facebook erfassen können.
Es gibt zwar einige Einschränkungen, aber die allgemeine Verfügbarkeit macht sie zu einer großartigen Ressource für das Training von KI-Modellen.
Daher sind sie eine der wichtigsten Quellen für die Pre-Trainingsphase von KI-Modellen, und zu den häufigsten Quellen für diese Informationen gehören:
- Web-Archive: Websites wie Common Crawl durchforsten das Web, um Seitenrohdaten, Metadaten, Texte und andere zugängliche Ressourcen zu extrahieren und sie zu archivieren. Die Pre-Training-Datensätze von GPT-3 umfassten 60 % des Common Crawl-Korpus.
- Öffentliche Inhalte in den sozialen Medien: Diese Plattformen stellen riesige Datenpools dar, die Einblicke in Millionen von Verhaltensweisen und Eigenschaften geben. Jede Plattform hat unterschiedliche Bestimmungen zur Beschränkung der Daten, die externe Stellen sammeln können, und sie verwenden öffentliche Daten, um ihre eigenen KI-Modelle zu trainieren, wie Meta und X/Twitter.
- Frei zugängliche Repositories: Quellen wie die öffentlichen Code-Repositories von Github enthalten Forschungsdaten von öffentlichen oder privaten Einrichtungen und bieten freien und dauerhaften Zugang zu Datensätzen, die von jedermann genutzt werden können.
- Öffentliche Einrichtungen stellen Datenbanken zur Verfügung: Websites wie das US-Nationalarchiv enthalten in der Regel institutionelle Daten zu verschiedenen Themen wie Wirtschaft, Geschichte, Wissenschaft, Geisteswissenschaften usw.
Offene Daten vs. öffentlich verfügbare Daten
Bei der Definition von öffentlichen Daten ist es auch wichtig, offene Daten zu erwähnen.
Der Begriff " offene Daten " wird oft synonym verwendet und ist eine Unterkategorie der öffentlichen Daten, die sich dadurch auszeichnet, dass es keine Beschränkungen für den Zugang, die Nutzung und die Verbreitung gibt.
Einige der wichtigsten Quellen für offene Daten sind Regierungen, die offene Datenportale betreiben und die von öffentlichen Einrichtungen gesammelten Daten freigeben.
Offene Daten stehen in der Regel unter einer offenen Lizenz, sind gut strukturiert und maschinenlesbar.
Daten zur Produktverwendung
Eine weitere Datenquelle für das Training von KI-Modellen sind Produktnutzungsdaten, die Nutzer bei der Verwendung eines Produkts erzeugen.
Da dies voraussetzt, dass ein Produkt bereits funktionsfähig ist, wird diese Datenquelle während der Feinabstimmungsphase des KI-Trainings genutzt, um Einblicke in das Nutzerverhalten und die Präferenzen zu erhalten.
Sie können die Produktnutzung in zwei Kategorien einteilen:
- Benutzerinhaltsdaten: Daten, die in den Inhalten enthalten sind, die von den Nutzern erzeugt werden, wenn sie mit dem Produkt interagieren, und die Texte, Bilder, Videos, Code und insgesamt alle Informationen umfassen können, die der Nutzer mit dem Produkt teilt.
- Metadaten: Daten, die in Verbindung mit Benutzerinhaltsdaten generiert werden, wie in "Daten über Daten", und umfassen in der Regel Details zu Benutzerinhaltsdaten, wie Erstellungszeitpunkt, Quelle, Größe, Standort, Geräteeinstellungen und mehr.
Da diese Art von Daten jedoch mit den Nutzern verknüpft sind, gelten sie als personenbezogene Daten.
Wie ein Produkt diese Art von Daten sammelt und verwendet, unterliegt den Datenschutzgesetzen und den Nutzungsbedingungen der Unternehmen.
Daten zum lizenzierten Produkt
Wie Produktnutzungsdaten werden auch lizenzierte Produktdaten von Dritten bezogen, an die die KI lizenziert ist.
Durch eine Lizenz kann ein Unternehmen KI-Modelle, die von einem anderen Unternehmen entwickelt und trainiert wurden, in seinen Produkten einsetzen.
Auf diese Weise hat Microsoft beispielsweise eine Lizenz zur Nutzung der Chat-GPT-3-Technologie von OpenAI für sein Produkt erhalten.
Es ist jedoch schwierig, genau zu wissen, in welchem Umfang Produktnutzungsdaten von OpenAI gesammelt werden, um sein KI-Modell zu verbessern.
Ein Wort von einem Experten
Auf die Frage, welche Auswirkungen KI auf den Datenschutz für Unternehmen und Verbraucher hat, sagte Anupa Rongala, CEO von Invensis Technologies: "KI hat den Datenschutz verändert, indem sie die Sicherheit intelligenter gemacht hat - aber auch angreifbarer."
Sie fügte hinzu: "Unternehmen analysieren heute riesige Datensätze in Echtzeit und erkennen Bedrohungen schneller als je zuvor. Gleichzeitig erhöht die KI-gesteuerte Automatisierung die Risiken, da Algorithmen oft sensible Informationen ohne eindeutige Zustimmung der Nutzer sammeln, verarbeiten und ableiten.
"Unternehmen, die verantwortungsvolle KI einsetzen, werden nicht nur die Vorschriften einhalten, sondern auch langfristiges Vertrauen aufbauen." Anupa Rongala, CEO, Invensis Technologies
Zu den größten Herausforderungen gehören ihrer Meinung nach "Voreingenommenheit, unbefugter Datenzugriff und eine zu starke Abhängigkeit von KI-gesteuerten Entscheidungen."
"Ein Gleichgewicht zu finden ist möglich - eine klare Führung, menschliche Aufsicht und ethische KI-Praktiken sind nicht verhandelbar.
Ist das Training von KI mit öffentlichen Daten datenschutzrechtlich zulässig?
Von allen Quellen, die für das Training von KI-Modellen verwendet werden, stellen öffentlich zugängliche Daten die wichtigste Ressource dar, zum einen wegen ihrer Verfügbarkeit, zum anderen, weil es kaum oder keine Beschränkungen für den Zugang, die Nutzung und die Verbreitung gibt.
Infolgedessen hat der Umfang und die Häufigkeit der öffentlich zugänglichen Datenerhebung seit dem Auftauchen der GenAI-Tools zugenommen.
Aus rechtlicher Sicht unterliegen öffentlich zugängliche Daten - soweit sie als personenbezogene Daten gelten - weniger den Datenschutzgesetzen als nicht-öffentliche personenbezogene Daten.
Die "öffentliche" Dimension deutet darauf hin, dass die Person, der sie gehört, sie zu irgendeinem Zeitpunkt öffentlich gemacht hat und damit die Erwartungen an die Privatsphäre aufgegeben hat.
In diesem Abschnitt konzentriere ich mich auf die Datenschutzgesetze der EU und der USA und erkläre, wie sie öffentlich zugängliche personenbezogene Daten definieren und was sie für eine legale Erfassung erfordern.
Datenschutzgesetze in der EU
In der EU definiert die DSGVO keine öffentlich zugänglichen personenbezogenen Daten, was bedeutet, dass es keine Unterscheidung zwischen öffentlich zugänglichen und personenbezogenen Daten gibt.
In der Anwendung gilt die DSGVO für alle personenbezogenen Daten, unabhängig von ihrer Quelle.
Infolgedessen beziehen sich die in Artikel 14 festgelegten Benachrichtigungspflichten für die für die Verarbeitung Verantwortlichen bezüglich der Erhebung von Informationen aus anderen Quellen als der betroffenen Person selbst auf die Erhebung öffentlicher Daten unter DSGVO.
Insbesondere sind ein Zweck und eine Rechtsgrundlage für die Verarbeitung dieser personenbezogenen Daten erforderlich.
Was die DSGVO über öffentliche Daten aussagt
Obwohl die DSGVO den Begriff "öffentliche Daten" nicht definiert, wird er doch erwähnt, und die für die Verarbeitung Verantwortlichen sind verpflichtet, in Artikel 14 anzugeben, ob die Daten aus öffentlich zugänglichen Quellen stammen.
Darüber hinaus legt Artikel 9 Regeln für besondere Kategorien personenbezogener Daten fest und scheint die Anforderungen für öffentlich zugängliche Daten einzuschränken.
Bezieht sich die Verarbeitung auf personenbezogene Daten, die von der betroffenen Person offenkundig öffentlich gemacht wurden, ist keine ausdrückliche Einwilligung oder eine andere der in Artikel 9 aufgeführten Rechtsgrundlagen (vor allem spezifische Gesetze und Vorschriften oder die Feststellung, Ausübung oder Verteidigung von Rechtsansprüchen) erforderlich.
Wenn es also darum geht, KI-Modelle auf öffentlich zugänglichen personenbezogenen Daten im Rahmen der DSGVO zu trainieren, können wir ableiten, dass ein Unternehmen mehrere Schritte befolgen muss:
- Schritt eins: Wählen Sie eine Rechtsgrundlage für das Training von KI-Modellen mit öffentlich verfügbaren Daten. Unabhängig davon, ob es sich um eine Einwilligung, einen Vertrag, ein berechtigtes Interesse oder eine rechtliche Verpflichtung handelt, sollte eine Rechtsgrundlage gewählt und deren Anforderungen gemäß den Bestimmungen von Artikel 6 umgesetzt werden.
- Schritt zwei: Unterrichtung der betroffenen Personen darüber, dass ihre öffentlich zugänglichen personenbezogenen Daten gemäß Artikel 14 zum Training von KI-Modellen verarbeitet wurden.
- Dritter Schritt: Trainieren von KI-Modellen auf besondere Kategorien personenbezogener Daten (Daten, aus denen die rassische oder ethnische Herkunft, politische Meinungen, religiöse oder philosophische Überzeugungen usw. hervorgehen) gemäß den Anforderungen von Artikel 9, d. h. nur Daten, die von den betroffenen Personen offenkundig öffentlich gemacht wurden oder für die die betroffene Person ihre ausdrückliche Zustimmung erteilt hat und denen keine anderen Gesetze entgegenstehen.
Vor diesem Hintergrund ist es bemerkenswert, dass die EU begonnen hat, gezielt gegen die Ausbildung von KI-Modellen vorzugehen.
Im März 2023 veröffentlichte die italienische Datenschutzbehörde Garante eine Vollstreckungsanordnung gegen OpenAI.
Neben mehreren Feststellungen zur Nichteinhaltung der Vorschriften in Bezug auf ChatGPT wurde vor allem bemängelt, dass OpenAI keine Rechtsgrundlage gemäß Artikel 6 DSGVO für die Verarbeitung personenbezogener Daten für das anfängliche Training der Algorithmen vorweisen konnte.
In ähnlicher Weise erließ die französische CNIL im Oktober 2022 eine einstweilige Verfügung gegen Clearview AI und verhängte eine Geldstrafe gegen das Unternehmen.
Neben mehreren Verstößen gegen DSGVO wurde ausdrücklich festgestellt, dass die Web-Crawling-Praktiken von Clearview AI zum Trainieren seiner Gesichtserkennungssoftware gegen die Verpflichtungen aus Artikel 6 der Rechtsgrundlage verstoßen.
Das EU-KI-Gesetz
Nach der Verabschiedung des EU-KI-Gesetzes durch das Parlament steht Europa nun an der Spitze der KI-Regulierung.
Letztes Jahr sprach ich mit dem Datenschutzanwalt Anokhy Desai, der damals sagte: "Alle Augen richten sich auf den KI-Rechtsakt der EU, der seit einigen Jahren in Arbeit ist. Es wird erwartet, dass es Anfang nächsten Jahres verabschiedet wird, was bedeuten würde, dass es Ende 2025 oder Anfang 2026 in Kraft treten könnte.
"Alle Augen sind auf das KI-Gesetz der EU gerichtet." Anokhy Desai, Datenschutzanwalt | CIPP/US, CIPT, CIPM, CIPP/C, CIPP/E, FIP
Das Gesetz, das nun teilweise in Kraft getreten ist, legt vor allem Transparenzanforderungen für GenAI fest und stuft die Technologie in verschiedene Risikostufen ein.
Desai fügt hinzu: "Das KI-Gesetz selbst verfolgt einen risikobasierten Ansatz bei der Regulierung von KI, und eine kürzlich dem KI-Gesetz hinzugefügte Bestimmung sieht vor, dass ' Unternehmen, die generative KI-Tools wie ChatGPT einsetzen ... jegliches urheberrechtlich geschützte Material offenlegen müssen, das zur Entwicklung ihrer Systeme verwendet wurde'."
Das EU-KI-Gesetz schreibt jedoch nicht vor, welche Informationen für Schulungszwecke verwendet werden dürfen.
"Es ist noch nicht bekannt, ob künftige Änderungen, Ausnahmeregelungen oder Vorschriften die zulässigen Arten von öffentlich zugänglichen Daten definieren werden", sagt Desai, "Da diese Daten von Natur aus öffentlich sind, gibt es keinen rückwirkenden Datenschutz für sie."
Datenschutzgesetze in den USA
In den USA haben einige Bundesstaaten einen anderen Ansatz für öffentlich zugängliche Daten gewählt, ganz im Gegensatz zu den Vorschriften in der EU.
Desai sagt: "Unter den Datenschutzgesetzen der Bundesstaaten, die in diesem Jahr in Kraft getreten sind, enthalten eine Handvoll Bestimmungen über KI, wie die Beschränkungen des CPRA in Bezug auf die Vorratsdatenspeicherung, die gemeinsame Nutzung von Daten und die Verwendung sensibler persönlicher Daten mit KI."
Die folgenden einzelstaatlichen Gesetze haben jedoch öffentlich zugängliche Daten von der Definition des Begriffs "personenbezogene Daten" und damit von der Anwendung und dem Geltungsbereich dieser Gesetze ausgenommen:
- Kalifornisches Verbraucherschutzgesetz (CCPA)
- Virginia Verbraucherdatenschutzgesetz (VCDPA)
- Colorado Datenschutzgesetz (CPA)
Nehmen Sie das CCPA in der durch das CPRA geänderten Fassung als Beispiel und lesen Sie, wie es "persönliche Informationen" und "öffentlich zugänglich" teilweise definiert.

Folglich fallen öffentlich zugängliche Daten weder unter die Benachrichtigungspflicht des CCPA noch unter das Recht der Verbraucher auf Löschung und Widerspruch gegen den Verkauf und die Weitergabe.
"Zwar wird in keinem dieser Gesetze die Verwendung öffentlich zugänglicher Daten für das Training von KI-Modellen erwähnt", sagt Desai, "aber die exponentielle Zunahme der vorgeschlagenen KI-Gesetze deutet darauf hin, dass in Zukunft ein solches Gesetz vorgeschlagen werden könnte."
Der fehlende Schutz öffentlicher Daten könnte eine Erklärung für die jüngsten Kontroversen darüber sein, dass einige Unternehmen diese Informationen zum Trainieren von KI-Modellen nutzen, ohne irgendeine Form der Zustimmung oder eine andere rechtmäßige Grundlage einzuholen.
Im August 2023 stand beispielsweise Zoom im Mittelpunkt einer Kontroverse wegen seiner Klauseln in den Nutzungsbedingungen über die Verwendung personenbezogener Daten zum Trainieren von maschinellem Lernen und KI-Modellen.
Auch OpenAI, Microsoft und Google sehen sich in den USA mit Sammelklagen konfrontiert, weil sie Daten für das Training von KI-Modellen auswerten.
Können Social-Media-Plattformen Ihre Daten zum Trainieren von KI verwenden?
Wie wir gesehen haben, stellen soziale Medien einen immensen Datenpool dar - öffentlich oder nicht - und können eine Ressource für das Training von KI-Modellen sein.
Ob Daten öffentlich oder privat sind, hängt im Allgemeinen von den Datenschutzeinstellungen ab, die ein Nutzer auf der von ihm verwendeten Plattform wählt.
Die verschiedenen Plattformen haben unterschiedliche Bereiche, in denen Daten veröffentlicht werden können, und unterschiedliche Ansätze, wie andere diese Daten zum Trainieren von KI-Modellen nutzen können.
Im nächsten Abschnitt gehen wir kurz auf einige der beliebtesten Plattformen ein.
Facebook & Instagram
Facebook und Instagram fallen in den Geltungsbereich der Meta-Richtlinien für öffentliche Daten.
Erstens: Ja, beide Plattformen nutzen öffentlich zugängliche Daten ihrer Plattform, um die KI von Meta zu trainieren, wie Nick Clegg, President of Global Affairs von Meta, kürzlich berichtete.
Was das Sammeln öffentlicher Daten durch externe Parteien für das Training von KI-Modellen angeht, so ist dies in den Nutzungsbedingungen beider Plattformen nur mit deren ausdrücklicher Genehmigung erlaubt - von der wir nur annehmen können, dass sie sie den Wettbewerbern nicht erteilen.
Nachstehend finden Sie die Bedingungen von Facebook für die Datenerfassung.

Auf dem folgenden Screenshot können Sie die Nutzungsbedingungen von Instagram lesen.

X/Twitter
Ähnlich wie bei Meta wird in den Bedingungen von X (ehemals Twitter) erwähnt, dass öffentlich verfügbare Daten verwendet werden, um die maschinellen Lernmodelle der Unternehmen zu trainieren, wie Techcrunch berichtet.
Außerdem erklärte Elon Musk bei der Vorstellung von xAI , dass sie öffentliche Tweets nutzen werden, um ihre neue KI zu trainieren.
Was den Zugang externer Parteien zu den öffentlichen Daten der Plattform betrifft, so hat X seine Bedingungen speziell dahingehend aktualisiert, dass jegliches Crawling oder Scraping verboten ist, um KI-Training zu verhindern.
Sie können diese Begriffe in der untenstehenden Abbildung sehen.

Zusammenfassung
Das Training von KI-Modellen hat in letzter Zeit viel Besorgnis erregt, weil sie einen immensen Appetit auf Daten haben - auch auf personenbezogene Daten.
Das Anzapfen öffentlich zugänglicher Informationen ist für KI-Entwickler jedoch zur Norm geworden, da die Datenschutzgesetze für diese Art von Daten lockerer sind.
Die jüngsten Ereignisse zeigen jedoch, dass die Regulierungsbehörden, die Öffentlichkeit und die KI-Unternehmen noch eine gemeinsame Basis schaffen müssen, um vertrauenswürdigere KI-Trainingsmethoden zu entwickeln:
- Clearview AIs Sanktion für das illegale Sammeln öffentlicher Bilder
- Die Sammelklagen gegen große KI-Akteure
- Negative Reaktion der Öffentlichkeit auf die Nutzungsbedingungen von Zoomim Sommer 2023
Ein erster Schritt auf dem Weg zu diesem Vertrauen könnte die Ratifizierung und Umsetzung der EU-AI-Akte sein, die von den europäischen Institutionen 2024 fertiggestellt wurde.
Unabhängig davon müssen personenbezogene Daten gemäß den geltenden Gesetzen geschützt bleiben, und wir müssen uns weiterhin über öffentliche Daten und deren Verwendung informieren.
