Mit OCEAN auf der Spur von Hackern und manipulierter Software

Der Coding-Stil eines Entwicklers ist so einzigartig wie sein Fingerabdruck. Felix Mächtle, hat ein Tool entwickelt, das Entwickler am Coding-Stil erkennt. Im Interview erklärt der Forscher von der Universität zu Lübeck und Mitglied des KI-Forschendennetzwerks AI Grid, und AI Grid-Projektleiterin Laure Poirson, wie das Tool arbeitet und wie sich OCEAN einsetzen lässt.

Felix, du sagst, der Coding-Stil eines Entwicklers ist wie ein Fingerabdruck. Wie kannst du den Autor von Code identifizieren?

Felix Mächtle: Jeder Entwickler hat seine eigene Art zu programmieren. Das ist vergleichbar mit der Wortwahl in der natürlichen Sprache. Diese Unterschiede zeigen sich zum Beispiel in der Wahl von Variablennamen oder der Struktur von Funktionen. Auch auf tieferer technischer Ebene, etwa in der Anordnung von Code-Blöcken oder in der Art, wie Fehlerbehandlung implementiert wird, hinterlassen Entwickler unbewusst einen erkennbaren Fingerabdruck. Mit OCEAN – Open-World Contrastive Authorship Identification – analysieren wir diese stilistischen Muster.

Unser System basiert auf kontrastivem Lernen: Anstatt Code einem bestimmten Autor zuzuordnen, vergleicht OCEAN zwei Codefragmente und stellt fest, ob sie vom selben Entwickler stammen. Damit arbeitet es nach dem Open-World-Ansatz: Es kann auch dann Aussagen treffen, wenn der Autor nicht in den Trainingsdaten enthalten ist.

Ein entscheidender Vorteil von OCEAN ist, dass es nicht auf Quellcode angewiesen ist. Das System funktioniert auch mit kompiliertem Maschinencode, der im Gegensatz zum Quellcode immer offen einsehbar ist. Dadurch kann der Stil eines Entwicklers auch dann identifiziert werden, wenn nur ausführbare Programme vorliegen, was OCEAN besonders wertvoll für die digitale Forensik und Cybersicherheit macht.

Wozu lässt sich OCEAN konkret nutzen?

Felix Mächtle: OCEAN kann in vielen Bereichen der Cybersicherheit eingesetzt werden. Insbesondere große kritische Infrastrukturen, wie Flughäfen, Kraftwerke oder Krankenhäuser, sind stark von IT-Systemen abhängig. Die frühzeitige Erkennung von Manipulationen ist daher entscheidend. Supply-Chain-Angriffe wie der SolarWinds-Hack zeigen, wie gefährlich manipulierte Updates sein können. OCEAN kann erkennen, ob Software-Updates stilistisch von früheren Versionen abweichen. Das kann ein Hinweis auf Schadsoftware sein. Aber auch in der digitalen Forensik kann OCEAN helfen, indem es den Stil von Schadsoftware analysiert und Verbindungen zwischen Angriffen herstellt. Ermittlungsbehörden könnten so Täter identifizieren oder Indizien für Gerichtsverfahren sichern.

Kann OCEAN auch Privatpersonen oder Unternehmen außerhalb der IT-Sicherheit helfen?

Felix Mächtle: Grundsätzlich kann die zugrundeliegende Technologie auch für Anwendungsfälle außerhalb der IT-Sicherheit genutzt werden. So ermöglicht OCEAN Entwicklern, unerlaubte Codekopien aufzuspüren, indem es stilistische Übereinstimmungen zwischen fremdem und eigenem Code analysiert. Das kann insbesondere für Entwickler relevant sein, die befürchten, dass ihr Code unerlaubt verwendet wurde. Unternehmen wiederum können OCEAN nutzen, um Code von externen Entwicklern oder Dienstleistern zu überprüfen und sicherzustellen, dass keine unerwünschten oder unautorisierten Änderungen vorgenommen wurden. Damit schafft OCEAN mehr Transparenz und stärkt das Vertrauen in die Softwareentwicklung. Solche Szenarien standen jedoch bisher nicht im Fokus unserer Forschung, da der Schutz kritischer Infrastrukturen im Vordergrund stand.

Inwiefern kann eure Methode auch dabei helfen, zu erkennen, ob Code von einer KI geschrieben wurde oder von einem menschlichen Entwickler stammt? Und wäre das für Unternehmen oder Universitäten interessant, um den Einsatz KI-generierter Software zu regulieren?

Felix Mächtle: Das ist durchaus möglich. Der Kern unserer Methode besteht darin, feine stilistische Unterschiede im Code zu erkennen. Dies gilt nicht nur für menschliche Entwickler, sondern auch für KI-generierte Software. Damit sollte OCEAN auch erkennen können, ob ein Code einem menschlichen Entwickler oder einer generativen KI zuzuordnen ist.

Das wäre insbesondere für Unternehmen und Universitäten relevant. Unternehmen könnten prüfen, ob KI-generierter Code in sicherheitskritischen Bereichen eingesetzt wird, etwa um Compliance-Anforderungen zu erfüllen. Hochschulen könnten sicherstellen, dass Studierende ihre Programmieraufgaben selbst lösen. Langfristig stellt sich aber auch die Frage nach klaren Regeln: Sollte die Verwendung von KI-Code verpflichtend gekennzeichnet werden? Welche Verantwortung tragen Entwickler und Unternehmen im Umgang mit generierter Software? Hier bedarf es klarer Richtlinien, um einen verantwortungsvollen Einsatz von KI in der Softwareentwicklung zu gewährleisten.

Eure Technologie könnte auch in gerichtlichen Verfahren zur Anwendung kommen, zum Beispiel zur Identifikation von Software-Autoren. Welche ethischen und rechtlichen Fragen ergeben sich daraus?

Felix Mächtle: Die Identifizierung von Software-Autoren ist mit erheblichen ethischen und rechtlichen Herausforderungen verbunden. Ein zentrales Problem ist der Verlust der Anonymität, wodurch Entwickler gegen ihren Willen identifizierbar werden könnten, mit potenziell gefährlichen Folgen, insbesondere in repressiven Staaten oder für Whistleblower.

Ein weiteres Risiko ist die Fehlinterpretation der Ergebnisse. OCEAN liefert nur Wahrscheinlichkeiten, keine absoluten Beweise, und wie jede KI kann es Fehler machen. So wie nicht jede Aussage von ChatGPT verlässlich ist, können auch die Zuordnungen von OCEAN ungenau sein. Eine falsche Zuordnung könnte schwerwiegende Folgen haben, insbesondere in Strafverfahren. Daher sollte eine solche Analyse nie als alleiniges Beweismittel dienen, sondern immer im Kontext und mit anderen Beweismitteln geprüft werden.

Du forschst im Bereich IT-Sicherheit und KI. Welche aktuellen Trends in der Cybersicherheit hältst du für besonders spannend? Was sind die größten Herausforderungen für die nächsten Jahre?

Felix Mächtle: Die Fähigkeit moderner KI-Modelle, mit der Rechenkapazität von Grafikkarten riesige Datenmengen zu analysieren, eröffnet enorme Chancen für die Cybersicherheit. So können zum Beispiel im Bereich der Programmanalyse KI-gestützte Methoden schon heute Sicherheitslücken aufdecken, die klassischen, regelbasierten Tools oft entgehen. Ein vielversprechender Trend ist die Verwendung von Large Language Models (LLMs) zur automatisierten Codeanalyse und Exploit-Generierung, wodurch Sicherheitslücken schneller identifiziert und verstanden werden können. Solche Themen diskutiere ich mit anderen Forschenden regelmäßig im KI-Forschungsnetzwerk AI Grid, das den Austausch zwischen Nachwuchstalenten und Expert:innen fördert.

Mit der zunehmenden Verbreitung von KI entstehen aber auch neue Risiken. KI-Modelle selbst sind angreifbar, sei es durch Angriffe von außen oder durch gezielte Manipulationen während des Trainings. In einer früheren Forschungsarbeit mit einem anderen Mitglied des AI Grid haben wir beispielsweise gezeigt, dass ein rein KI-basierter Virenscanner durch präzise berechnete Bitmanipulationen getäuscht werden kann. Schadsoftware konnte so effektiv vor der Erkennung verborgen werden.

Laure, als Projektleiterin bei AI Grid begleitest Du junge Forschende wie Felix auf ihrem Weg. Welche Rolle spielt das Netzwerk für den interdisziplinären Austausch in der KI-Forschung? 

Laure Poirson: AI Grid bietet eine großartige Plattform für den wissenschaftlichen Austausch. Derzeit sind fast 200 junge Forschende aus verschiedenen Disziplinen wie Informatik, Psychologie, Biologie, Physik und Medizin Teil unseres Netzwerks – alle mit einem gemeinsamen Fokus auf KI. Die interdisziplinäre Vielfalt bereichert KI-Ansätze und ermöglicht innovative Methoden durch die Kombination unterschiedlicher Fachrichtungen.

Zur Förderung des Wissenstransfers haben wir 27 „Micro Focus Groups“ zu spezialisierten KI-Themen eingerichtet. Dort präsentieren junge Forschende ihre Arbeiten, diskutieren Methoden und profitieren vom Austausch. So entstehen neue Kooperationen und innovative Forschungsprojekte. Felix ist ein Beispiel für viele in unserem Netzwerk, die gemeinsam mit Forschungspartnern neue Projekte entwickeln. Wir unterstützen unsere Mitglieder aktiv bei der Vernetzung, etwa mit den KI-Kompetenzzentren.

Der interdisziplinäre Austausch geht über Landesgrenzen hinaus: AI Grid kooperiert mit Forschungszentren, Universitäten und Innovationsnetzwerken in ganz Europa. So erweitern junge Forschende ihre Perspektiven, knüpfen wertvolle Kontakte und finden neue Partner für ihre Forschung.

Cybersicherheit betrifft Wissenschaft, Industrie und Politik gleichermaßen. Wie hilft AI Grid dabei, den Wissenstransfer zwischen diesen Bereichen zu fördern?

Laure Poirson: AI Grid ist ein akademisches Netzwerk, daher tauschen wir uns natürlich häufig mit Forschungszentren und Universitäten aus. Ebenso wichtig ist jedoch die Brücke zur Industrie, da Forschung anwendbar sein muss, um Herausforderungen in Bildung, Gesundheit oder Umwelt zu lösen. Deshalb pflegen wir Partnerschaften mit KI-Servicezentren und dem ARIC-Netzwerk in Hamburg, die zwischen Forschung und Praxis im Bereich Künstlicher Intelligenz vermitteln.

Ein konkretes Beispiel für diesen Wissenstransfer war unser Hackathon mit der Plattform digitales MV sowie der Stadt und Universität Stralsund. Ziel war die Entwicklung innovativer Lösungen für Nachhaltigkeit. Die Zusammenarbeit führte zu spannenden Ergebnissen: ein LLM-basierter Chatbot für nachhaltigen Tourismus in Mecklenburg-Vorpommern, eine Plattform zur Visualisierung von Begrünungsflächen in Stralsund und ein Tool zur Prognose von Energieverbrauchsspitzen für KMU. Diese Formate fördern den Austausch zwischen Wissenschaft, Wirtschaft und öffentlichem Sektor und helfen, Forschung in die Praxis zu überführen.

Zudem vernetzt AI Grid gezielt Forschende mit Unternehmen, Start-ups und öffentlichen Einrichtungen. Dafür organisieren wir regelmäßig Laborbesuche, Networking-Sessions mit Gründer:innen und Treffen mit führenden Unternehmen, etwa mit dem Team von Google DeepMind in Berlin.

Felix, was sind die nächsten Schritte? Gibt es neue Forschungsfragen oder Weiterentwicklungen, die Du in den kommenden Monaten angehen möchtest?

Felix Mächtle: Aktuell arbeite ich mit einem Teil der Micro-Focus-Gruppe IT-Sicherheit des AI Grid an der automatisierten Behebung von Sicherheitslücken. Unser Ziel ist es, Schwachstellen deutlich schneller zu schließen, denn in der Praxis bleiben sie oft monatelang offen. Ein kritisches Zeitfenster, in dem Angreifer sie gezielt ausnutzen können. Dazu verfolgen wir zwei zentrale Ansätze: Zum einen analysieren wir die Möglichkeiten und Grenzen großer Sprachmodelle (LLMs), um herauszufinden, inwieweit sie bereits heute Programmcode verstehen. Zum anderen entwickeln wir darauf aufbauend eine optimierte Code-Repräsentation, die es LLMs ermöglicht, sicherheitskritischen Code effizient zu verarbeiten. Dabei spielen Aspekte wie Strukturierung, Tokenanzahl und Kontextverfügbarkeit eine entscheidende Rolle. Langfristig könnte diese Forschung dazu beitragen, die Reaktionszeit auf Sicherheitslücken drastisch zu verkürzen und damit einen aktiven Beitrag zur IT-Sicherheit zu leisten.

Felix Mächtle

ist Forscher an der Universität zu Lübeck und Mitglied des KI-Forschenden-Netzwerks AI Grid.

Laure Poirson

ist Projektleiterin von AI Grid.

Roger Homrich

Recent Posts

Künstliche Intelligenz als Gamechanger

"Der wahre Mehrwert von KI entsteht durch die Integration unternehmenseigener Daten", sagt Mike Sicilia von…

9 Stunden ago

Verbrechensabwehr mit KI

Autonom agierende Agenten werden Sicherheitsteams bei der Angriffsabwehr unterstützen, sagt Zac Warren von Tanium.

2 Tagen ago

Schwedens Bargeld-Comeback: Ein unerwarteter Kurswechsel

Schweden hat in seiner Entwicklung hin zu einer bargeldlosen Gesellschaft einen überraschenden Rückzieher gemacht. Diese…

2 Tagen ago

Open Source und KI: Passt das zusammen?

"Uns geht es vielmehr darum aufzuzeigen, wie Open-Source-KI realisierbar ist", sagt Jan Wildeboer von Red…

3 Tagen ago

“Eine integrierte Plattform ermöglicht Vereinfachung bei höherer Qualität”

"Wir haben in unserem SOC den Level 1-Support vollständig automatisiert", sagt Thomas Maxeiner von Palo…

3 Tagen ago

Frauen in der IT: Der entscheidende Wettbewerbsvorteil

Das Bewusstsein für die Bedeutung von Diversität wächst, doch der Fortschritt bleibt zäh, obwohl gemischte…

4 Tagen ago