Categories: CybersicherheitKI

Web Scraping und KI: Spiel mit dem Feuer

Web Scraping unterscheidet sich von Screen Scraping dadurch, dass der zugrundeliegende HTML-Code und in Datenbanken gespeicherte Daten extrahiert werden können, während beim Screen Scraping nur die auf dem Bildschirm angezeigten Pixel kopiert werden.

Im Laufe der Jahre haben sich die Methoden zur Datenextraktion weiterentwickelt. Entwickler begannen, Code zu schreiben, um den Prozess zu automatisieren. Durch maschinelles Lernens und KI ist das Web Scraping immer ausgefeilter und effizienter geworden. So entwickelte es sich zu einem wichtigen Werkzeug für Unternehmen, um Daten für maschinelle Lernmodelle, Marktforschung, Wettbewerbsanalyse und vieles mehr zu sammeln.

Gute und böse Seite des Web Scraping

Oft werden die negativen Aspekte des Web Scraping hervorgehoben, aber die Technik hat auch ihre positiven Seiten. So ist es beispielsweise mit ihr möglich einen durchsuchbaren Index von Webseiten zu erstellen und zu pflegen. Außerdem können Social Media Manager damit die Stimmung in den sozialen Medien messen.

Bösartige Bots hingegen extrahieren Inhalte von einer Website zu Zwecken, die außerhalb der Kontrolle des Website-Besitzers liegen und verstoßen dabei häufig gegen die Nutzungsbedingungen. Konkurrenten könnten beispielsweise Preisinformationen abgreifen, um sich einen Wettbewerbsvorteil zu verschaffen. Oder sie stehlen Content, den sie selbst benutzen. So sinkt unweigerlich das SEO-Ranking. Besorgniserregend in diesem Zusammenhang ist, dass laut unserer Studie der Anteil des Bad Bot-Verkehrs am gesamten Internetverkehr in Deutschland mittlerweile 67,5 Prozent beträgt.

Legalität von Web Scraping

Web Scraping befindet sich also in einer rechtlichen Grauzone. Dies hat vor allem in den USA zu Gerichtsverfahren mit prominenten Beteiligten geführt. So verletzte zum Beispiel Power Ventures im Jahr 2009 geistige Eigentumsrechte, indem es Nutzerdaten von Facebook auswertete. Im wegweisenden Fall LinkedIn vs. hiQ Labs im Jahr 2019 entschied der Oberste Gerichtshof der USA dagegen, dass das Web Scraping von öffentlich zugänglichen Daten im Internet rechtmäßig ist.

In Deutschland hat der Bundesgerichtshof 2014 Web Scraping nicht als rechtswidrig eingestuft, solange keine „technischen Maßnahmen“, die die Daten schützen sollen, umgangen werden. Das Oberlandesgericht Köln entschied 2020, dass Betreiber von Online-Shops das Datenbankurheberrecht verletzen, wenn sie die Daten aus einem fremden Online-Shop für den eigenen Online-Shop auslesen und verwenden. Nach Ansicht des Oberlandgerichts führen Scraping-Vorfälle jedoch nicht automatisch zu einem Schadensersatz gemäß der DSGVO, sondern müssen immer im Einzelfall betrachtet werden.

Web Scraping im Zeitalter der KI

Zwar existiert mittlerweile ein rechtlicher Rahmen, in denen Web Scraping legal durchgeführt werden darf. Durch die stetige Weiterentwicklung der KI rückt die Diskussion über die Rechtmäßigkeit der Technik wieder in den Vordergrund, da sie grundlegend dazu beiträgt, Large Language Modelle (LLM) zu trainieren. Modelle wie GPT-4 von OpenAI sind auf große Datenmengen angewiesen, um zu lernen und kohärente Ergebnisse zu erzeugen.

Ein aktueller Fall dazu ist die Klage der „New York Times“ gegen Microsoft und Open AI. Dabei sieht die US-Zeitung das Urheberrecht an Millionen von Artikeln verletzt, da das Unternehmen das Wissen aus diesen Artikeln genutzt haben soll, um die KI zu füttern. Das Urteil in diesem Fall könnte zum Präzedenzfall werden. Sollte das Gericht zugunsten von Microsoft entscheiden, würde dies die Gruppe stärken, die der Ansicht ist, dass Daten notwendig sind, damit solche Modelle überhaupt funktionieren können. Sollte das Gericht der „New York Times“ Recht geben, wäre dies vielen Beobachtern zufolge ein Sieg für das Urheberrecht und den Datenschutz.

Ethische Implikationen könnten ebenfalls ein Problem darstellen. Die von der KI gesammelten Daten könnten versehentlich private Informationen von Einzelpersonen enthalten, die die KI unbeabsichtigt verbreitet. Dies stellt ein Risiko für die Betroffenen dar. Zudem verwendet sie die Daten sehr intransparent und es ist schwierig, die bereits gesammelte Daten wieder zu entfernen.

Effektiver Schutz vor Web Scraping

Da Web Scraping bereits jetzt eine rechtliche Grauzone ist, wird KI dieses Problem noch verschärfen, weil die Gerichte bereits jetzt mit der Rechtsprechung nicht nachkommen. Und selbst wenn es eine Rechtsprechung geben sollte, wird diese wahrscheinlich der Realität hinterherhinken. KI entwickelt sich dafür derzeit zu schnell weiter. Die Technologie ist somit zu einem Spiel mit dem Feuer geworden, denn der Grat zur Legalität ist schmal. Dies geht zu Lasten der Unternehmen, deren Daten weiterhin von böswilligen Akteuren gestohlen werden.

Unternehmen sollten daher Maßnahmen ergreifen, um sich vor Web Scraping zu schützen. Eine technische Bot-Management-Lösung, die jegliches Web Scraping verhindert, könnte hier die Lösung sein. Sie sollte in der Lage sein, alle Einfallstore wie Websites, mobile Anwendungen und APIs zu schützen. Unternehmen sollten auch darauf achten, dass es sich um einen mehrschichtigen Ansatz handelt, der maschinelle Lernmodelle enthält, die speziell darauf zugeschnitten sind Web Scraping zu erkennen. Auf diese Weise können sie den geschäftskritischen Datenverkehr trotz der schwierigen Rechtslage und der Weiterentwicklung der KI schützen.

Stephan Dykgers

ist AVP DACH bei Imperva.

Roger Homrich

Recent Posts

BSI mahnt Smarthome-Nutzer zu mehr Wachsamkeit

Drei Viertel der Deutschen nutzen Smarthome-Geräte. Eine angemessene Absicherung gegen externe Zugriffe ist vielen jedoch…

1 Tag ago

KI im Kampf gegen Entwaldung

Wer in der EU mit Holz handelt, muss davon Muster einreichen. Der Prüfprozess ist jedoch…

2 Tagen ago

Krankenhäuser im Visier: Wird IT-Sicherheit zur Überlebensfrage?

Zahl der Cyberangriffe auf Krankenhäuser deutlich gestiegen. Ein Interview mit Dirk Wolters, Geschäftsführer von NeTec.

2 Tagen ago

KI als Chef für ein Viertel vorstellbar

Laut Kaspersky-Umfrage halten 28 Prozent der Deutschen Künstliche Intelligenz für neutraler als menschliche Vorgesetzte.

3 Tagen ago

Sechs von zehn Unternehmen Ransomware-Opfer

Jeder achte Betrieb hat Lösegeld gezahlt. Bei 17 Prozent waren Geschäftsprozesse massiv eingeschränkt. Nur jeder…

3 Tagen ago

EU AI Act: Unternehmen sehen Hindernis für die KI-Entwicklung

Aktuelle Befragung von Deloitte zeigt eine deutliche Verunsicherung bei der Einschätzung der neuen Verordnung.

3 Tagen ago