Datenflüsse in KI-Systemen
Datenbewegungen und ihre Auswirkungen verstehen
Am 15. März 2024 hatte ich das Privileg, auf dem 9. Datenschutztag AI & Datenschutz der HÄRTING Rechtsanwälte AG einen Vortrag zum Thema Datenflüsse in KI-Systemen zu halten. Dieser Anlass richtete sich vor allem an Fachleute aus den Bereichen Datenschutz und Informationssicherheit, die in ihren Unternehmen mit den wachsenden Herausforderungen rund um den Einsatz von Künstlicher Intelligenz konfrontiert sind. In meinem Vortrag habe ich grundlegende Fragen beleuchtet, die sich im Zusammenhang mit generativen KI-Systemen stellen, insbesondere wenn es um die Erfassung, Verarbeitung und Weitergabe von Daten geht. Mit meinem Vortrag wollte ein besseres Verständnis geben für die komplexen Datenbewegungen in KI-Systemen und aufzeigen, wie Unternehmen diese Prozesse sicher und effizient gestalten können. Damit wolle ich die Grundlagen legen für eine fundierte Diskussion vorallem in kombination mit den weiteren eher legal ausgerichteten Vorträgen des Tages. Zugleich standen die globalen Gesetzesinitiativen – etwa der EU AI Act – im Vordergrund des Events, welche die Voraussetzungen für einen sicheren, transparenten und verantwortungsvollen KI-Einsatz definieren.
Generative KI und die Rolle von LLMs
Im ersten Abschnitt meiner Präsentation bin ich auf die Funktionsweise von Large Language Models (LLMs) eingegangen, die aus gewaltigen Datenmengen mithilfe statistischer Verfahren lernen. Dabei erkennen sie Muster, um Texte, Bilder oder andere Inhalte eigenständig zu erzeugen. Ich habe betont, dass dieses sogenannte „generative“ Potenzial die Grundlage für viele innovative Anwendungen bildet, gleichzeitig aber auch neue Risiken schafft: So kann es zu Datenlecks kommen, wenn sensible Informationen in Trainings- oder Prompt-Daten unzureichend geschützt sind. Genau hier liegt eine zentrale Herausforderung: Mit jedem neuen Prompt und jeder Interaktion kann unbeabsichtigt vertrauliches Wissen preisgegeben werden. Ich betonte aber auch das dieses Riskio nicht direkt von der LLM technoligie ausgeht sonder, dass dies ein generelles Problem von Datenbewegungen ist bei welchen Services von Drittanbietern verwendet werden.
Kontext und Prompt-Struktur
Ein weiterer Schwerpunkt lag darauf, wie wichtig das richtige „Füttern“ der KI mit Informationen ist. Unter Prompting versteht man die Steuerung von LLMs durch gezielte Eingabeaufforderungen, die in einem bestimmten Kontext eingebettet werden müssen. Dabei zeigte ich anhand praktischer Beispiele, wie der Kontext eine entscheidende Rolle für die Qualität und Relevanz der KI-Antworten spielt. Besonders die Methode Retrieval Augmented Generation (RAG) verdeutlicht dies: Hier werden externe Datenquellen eingebunden und mithilfe von Vektor-Datenbanken strukturiert durchsucht, um passenden Input für den Prompt zu liefern. Je genauer dieser Kontext aufbereitet ist und je geschickter die Prompts formuliert sind, desto präziser und sicherer kann das KI-System agieren. Allerdings müssen Unternehmen darauf achten, dass in diesem Prozess keine sensiblen Informationen unkontrolliert and Dritt-Services übermittelt werden.
Herausforderungen im Umgang mit Daten
Im dritten Abschnitt habe ich erläutert, welchen Hürden sich Unternehmen beim Einsatz von KI-Systemen häufig gegenübersehen. Dazu zählen vor allem die begrenzten Kontextlängen mancher generativer Modelle, die eine intelligente Verwaltung und Priorisierung der bereitgestellten Daten notwendig machen. Zudem ist eine gründliche Validierung der KI-Ausgaben unabdingbar, da LLMs zwar hervorragend Muster erkennen und replizieren, aber nicht über ein echtes Faktenwissen verfügen. Daraus können sich sogenannte „Halluzinationen“ ergeben – also erfundene oder unvollständige Informationen. Noch brisanter wird die Lage, wenn Unternehmen auf vertrauliche Daten angewiesen sind, die geschützt oder anonymisiert werden müssen. Anhand konkreter Fallbeispiele habe ich veranschaulicht, wie sich Datenquellen so gestalten lassen, dass eine möglichst hohe Sicherheit gewährleistet ist. Dabei sind Anonymisierungs- und Pseudonymisierungskonzepte unerlässlich, um den gesetzlichen Datenschutzvorgaben gerecht zu werden und trotzdem vom grossen Potenzial der KI zu profitieren.
Diskussion und Ausblick
In der anschliessenden Diskussionsrunde wurde deutlich, dass der gesetzliche Rahmen – nicht nur in Europa, sondern auch in den USA und anderen Regionen – starken Einfluss darauf nimmt, wie Unternehmen KI-Technologien einsetzen. Insbesondere Datenschutzbeauftragte (DSB) und Chief Information Security Officers (CISO) spielen dabei eine Schlüsselrolle, wenn es um Risikoanalysen, Lieferantenmanagement und den Schutz von kritischen Infrastrukturen geht. Viele Zuhörerinnen und Zuhörer berichteten von ihren Erfahrungen im Umgang mit KI-Lösungen und brachten wertvolle Fragen mit, die von technischen Details zu Vektor-Datenbanken bis zu ethischen Überlegungen zum Einsatz von KI reichten.
Abschliessend lässt sich sagen, dass die Zukunft der Künstlichen Intelligenz nicht nur vom technischen Fortschritt, sondern wesentlich auch von verantwortungsvollem Datenmanagement abhängt. Wer KI effizient und sicher nutzen will, muss sich intensiv mit den Datenflüssen in KI-Systemen beschäftigen und ein Bewusstsein für mögliche Risiken entwickeln. Gleichzeitig birgt die Technologie enormes Potenzial für Innovation und Wertschöpfung, wenn alle Akteure – von Entwicklern über Datenschutzexperten bis hin zu Führungskräften – eng zusammenarbeiten und klare Richtlinien zur Hand haben. Diese Erkenntnisse nehmen die Teilnehmenden des 9. Datenschutztags AI & Datenschutz mit und werden sie hoffentlich in ihren eigenen Organisationen umsetzen, um die Chancen der KI voll auszuschöpfen und gleichzeitig den Datenschutz zu wahren.