Categories: KI

Forscher umgehen Sicherheitsfunktionen von ChatGPT und Bard

Forscher der Carnegie Mellon University und des Center for AI Safety haben Schwachstellen in KI-Chatbots wie ChatGPT, Bard und Claude gesucht. Konkret wollten sie herausfinden, inwieweit große Sprachmodelle (Large Language Model, LLM) anfällig sind für automatisierte Angriffe. Dabei stellten sie fest, dass die Modelle trotz vorhandener Sicherheitsfunktionen dazu verleitet werden können, ihre Inhaltsfilter zu umgehen, um Falschinformationen und Hassreden auszugeben
.

Für ihre Tests benutzten die Forscher ein Open-Source-KI-System, um die Black-Box-LLMs von OpenAI, Google und Anthropic anzugreifen. Sie brachten die KI-Chatbots dazu, die schädlichen Eingaben nicht zu erkennen, indem sie an das Ende jeder Eingabeaufforderung eine lange Zeichenkette anfügten. Der Chatbot verarbeitete die getarnte Eingabeaufforderung, aber die zusätzlichen Zeichen sorgten dafür, dass die Inhaltsfilter die Eingabe nicht als etwas erkannten, das blockiert oder geändert werden sollte, so dass das System eine Antwort generierte, die es normalerweise nicht geben würde.

Hersteller sehen Verbesserungsbedarf

“Durch simulierte Konversation kann man diese Chatbots benutzen, um Menschen davon zu überzeugen, Desinformationen zu glauben”, sagte Matt Fredrikson, Professor an der Carnegie Mellon University und einer der Autoren der Studie, im Gespräch mit der New York Times.

Die Untersuchung der Forscher zeigt, dass die vorhandenen Schutzfunktionen von KI-Chatbots nicht ausreichend sind. Eine weitere Erforschung könnte zudem die Entwicklung staatlicher Vorschriften für KI-Systeme beschleunigen. “Es gibt keine offensichtliche Lösung”, erklärte Zico Kolter, Professor an der Carnegie Mellon University und Autor des Berichts, gegenüber der News York Times. “Man kann in kurzer Zeit beliebig viele dieser Angriffe erstellen.”

Vor Veröffentlichung des Berichts gaben die Forscher ihre Ergebnisse an Anthropic, Google und OpenAI weiter. Die Unternehmen räumten ein, dass noch mehr getan werden müsse, um ihre Sprachmodelle vor Angriffen zu schützen.

Stefan Beiersmann

Stefan unterstützt seit 2006 als Freier Mitarbeiter die Redaktionen von Silicon.de und ZDNet.de. Wenn andere noch schlafen, sichtet er bereits die Nachrichtenlage, sodass die ersten News des Tages meistens von ihm stammen.

Recent Posts

Bau-Spezialist Schöck: Migration von SAP ECC ERP auf S/4HANA

Bau- und Fertigungsspezialist investiert in die S/4HANA-Migration und geht mit RISE WITH SAP in die…

18 Stunden ago

Pure Storage: Cloud, KI und Energieeffizienz

Trends 2025: Rasante Entwicklungen bei Automatisierung, KI und in vielen anderen Bereichen lassen Unternehmen nicht…

2 Tagen ago

GenKI verbessert Datenmanagement und Angebotsgenauigkeit

DHL Supply Chain nutzt generative KI-Anwendungen für Datenbereinigung und präzisere Beantwortung von Angebotsanforderungen (RFQ).

3 Tagen ago

Rolls-Royce Power Systems nutzt industrielle KI aus der IFS Cloud​

Marke mtu will globale Serviceabläufe optimieren und strategische Ziele hinsichtlich Effizienz, Nachhaltigkeit und Wachstum unterstützen.

3 Tagen ago

Thomas-Krenn.AG: viele Pflichten, knappe Ressourcen, mehr freie IT-Welt

IT-Infrastruktur-Trends 2025: Open-Source-Projekte sowie aufwändige regulatorische und Pflichtaufgaben werden das Jahr prägen.

3 Tagen ago

Stadt Kempen nutzt Onsite Colocation-Lösung

IT-Systeme werden vor Ort in einem hochsicheren IT-Safe betrieben, ohne auf bauliche Maßnahmen wie die…

4 Tagen ago