Web Scraping unterscheidet sich von Screen Scraping dadurch, dass der zugrundeliegende HTML-Code und in Datenbanken gespeicherte Daten extrahiert werden können, während beim Screen Scraping nur die auf dem Bildschirm angezeigten Pixel kopiert werden.
Im Laufe der Jahre haben sich die Methoden zur Datenextraktion weiterentwickelt. Entwickler begannen, Code zu schreiben, um den Prozess zu automatisieren. Durch maschinelles Lernens und KI ist das Web Scraping immer ausgefeilter und effizienter geworden. So entwickelte es sich zu einem wichtigen Werkzeug für Unternehmen, um Daten für maschinelle Lernmodelle, Marktforschung, Wettbewerbsanalyse und vieles mehr zu sammeln.
Oft werden die negativen Aspekte des Web Scraping hervorgehoben, aber die Technik hat auch ihre positiven Seiten. So ist es beispielsweise mit ihr möglich einen durchsuchbaren Index von Webseiten zu erstellen und zu pflegen. Außerdem können Social Media Manager damit die Stimmung in den sozialen Medien messen.
Bösartige Bots hingegen extrahieren Inhalte von einer Website zu Zwecken, die außerhalb der Kontrolle des Website-Besitzers liegen und verstoßen dabei häufig gegen die Nutzungsbedingungen. Konkurrenten könnten beispielsweise Preisinformationen abgreifen, um sich einen Wettbewerbsvorteil zu verschaffen. Oder sie stehlen Content, den sie selbst benutzen. So sinkt unweigerlich das SEO-Ranking. Besorgniserregend in diesem Zusammenhang ist, dass laut unserer Studie der Anteil des Bad Bot-Verkehrs am gesamten Internetverkehr in Deutschland mittlerweile 67,5 Prozent beträgt.
Web Scraping befindet sich also in einer rechtlichen Grauzone. Dies hat vor allem in den USA zu Gerichtsverfahren mit prominenten Beteiligten geführt. So verletzte zum Beispiel Power Ventures im Jahr 2009 geistige Eigentumsrechte, indem es Nutzerdaten von Facebook auswertete. Im wegweisenden Fall LinkedIn vs. hiQ Labs im Jahr 2019 entschied der Oberste Gerichtshof der USA dagegen, dass das Web Scraping von öffentlich zugänglichen Daten im Internet rechtmäßig ist.
In Deutschland hat der Bundesgerichtshof 2014 Web Scraping nicht als rechtswidrig eingestuft, solange keine „technischen Maßnahmen“, die die Daten schützen sollen, umgangen werden. Das Oberlandesgericht Köln entschied 2020, dass Betreiber von Online-Shops das Datenbankurheberrecht verletzen, wenn sie die Daten aus einem fremden Online-Shop für den eigenen Online-Shop auslesen und verwenden. Nach Ansicht des Oberlandgerichts führen Scraping-Vorfälle jedoch nicht automatisch zu einem Schadensersatz gemäß der DSGVO, sondern müssen immer im Einzelfall betrachtet werden.
Zwar existiert mittlerweile ein rechtlicher Rahmen, in denen Web Scraping legal durchgeführt werden darf. Durch die stetige Weiterentwicklung der KI rückt die Diskussion über die Rechtmäßigkeit der Technik wieder in den Vordergrund, da sie grundlegend dazu beiträgt, Large Language Modelle (LLM) zu trainieren. Modelle wie GPT-4 von OpenAI sind auf große Datenmengen angewiesen, um zu lernen und kohärente Ergebnisse zu erzeugen.
Ein aktueller Fall dazu ist die Klage der „New York Times“ gegen Microsoft und Open AI. Dabei sieht die US-Zeitung das Urheberrecht an Millionen von Artikeln verletzt, da das Unternehmen das Wissen aus diesen Artikeln genutzt haben soll, um die KI zu füttern. Das Urteil in diesem Fall könnte zum Präzedenzfall werden. Sollte das Gericht zugunsten von Microsoft entscheiden, würde dies die Gruppe stärken, die der Ansicht ist, dass Daten notwendig sind, damit solche Modelle überhaupt funktionieren können. Sollte das Gericht der „New York Times“ Recht geben, wäre dies vielen Beobachtern zufolge ein Sieg für das Urheberrecht und den Datenschutz.
Ethische Implikationen könnten ebenfalls ein Problem darstellen. Die von der KI gesammelten Daten könnten versehentlich private Informationen von Einzelpersonen enthalten, die die KI unbeabsichtigt verbreitet. Dies stellt ein Risiko für die Betroffenen dar. Zudem verwendet sie die Daten sehr intransparent und es ist schwierig, die bereits gesammelte Daten wieder zu entfernen.
Da Web Scraping bereits jetzt eine rechtliche Grauzone ist, wird KI dieses Problem noch verschärfen, weil die Gerichte bereits jetzt mit der Rechtsprechung nicht nachkommen. Und selbst wenn es eine Rechtsprechung geben sollte, wird diese wahrscheinlich der Realität hinterherhinken. KI entwickelt sich dafür derzeit zu schnell weiter. Die Technologie ist somit zu einem Spiel mit dem Feuer geworden, denn der Grat zur Legalität ist schmal. Dies geht zu Lasten der Unternehmen, deren Daten weiterhin von böswilligen Akteuren gestohlen werden.
Unternehmen sollten daher Maßnahmen ergreifen, um sich vor Web Scraping zu schützen. Eine technische Bot-Management-Lösung, die jegliches Web Scraping verhindert, könnte hier die Lösung sein. Sie sollte in der Lage sein, alle Einfallstore wie Websites, mobile Anwendungen und APIs zu schützen. Unternehmen sollten auch darauf achten, dass es sich um einen mehrschichtigen Ansatz handelt, der maschinelle Lernmodelle enthält, die speziell darauf zugeschnitten sind Web Scraping zu erkennen. Auf diese Weise können sie den geschäftskritischen Datenverkehr trotz der schwierigen Rechtslage und der Weiterentwicklung der KI schützen.
Stephan Dykgers
ist AVP DACH bei Imperva.
LLMs besitzen einerseits innovative neue Fähigkeiten, stellen Unternehmen allerdings auch vor diverse Herausforderungen: ob EU…
Server-Ausbau in den USA und China macht große Fortschritte, deutscher Weltmarktanteil sinkt. Lichtblicke in Frankfurt…
Der Markt für Workplace Services gerät in Bewegung. Das bestmögliche digitale Nutzererlebnis gilt als Schlüssel…
Schutz für 10.000 Postfächer über rund 200 Domains: Private-Stack-Variante kombiniert Vorteile einer Cloud-Lösung mit Sicherheit…
Huawei Connect Paris: Innovationen rund um Data Center, Storage und IT-Sicherheit.
Mit KI optimieren Hacker ihre Angriffsversuche. Ist CIAM eine Lösung, mit der sich Unternehmen vor…