Neues Tool digitalisiert Bücher und schützt vor Spam

Recaptcha verbindet die unangenehme Arbeit der Spam-Abwehr mit einem nützlichen Projekt zur Digitalisierung von Büchern. Eine Gruppe von Programmierern der Carnegie Mellon University hat diesen neuartigen Dienst entwickelt. Das Projekt ist eine Abwandlung der weit verbreiteten Captcha-Technologie (Completely Automated Public Turing test to tell Computers and Humans Apart), bei der Spam in E-Mails und auf Blogs gefiltert wird. Captcha wird genutzt, um herauszufinden, ob das System mit einem Menschen oder einer Maschine kommuniziert. Meistens muss man dazu ein Wort aus einem Bild mit obskuren Buchstaben richtig eingeben.

Recaptcha wandelt diesen lästigen Vorgang in einen produktiven Dienst um. Der Recaptcha-Dienst ist über eine Programmierschnittstelle einer Webseite erhältlich. Die Software-Plugins für die Schnittstelle sind Open Source und werden bei Google gehosted.

Recaptcha kann auch benutzt werden, um E-Mail-Adressen vor Spam zu schützen. “Damit kann man nicht nur die Spam-Probleme lösen, sondern gleichzeitig helfen, die geschriebene Geschichte der Menschheit zu bewahren”, erklärt Ben Maurer, Leiter des Projekts und Student an der Carnegie Mellon University in seinem Blog. Seit dem Start des Projekts am Dienstag nutzen es bereits 150 Webseiten. “An nur einem halben Tag wurden mithilfe von Recaptcha 8000 Wörter digitalisiert”, schwärmt Luis von Ahn, Professor an der Carnegie Mellon University. Dies ist ein neues Beispiel dafür, wie das Internet kollektive Ressourcen nutzbar machen kann.

Recaptcha ist in der Lage, Unmengen von Wörtern in kurzer Zeit zu digitalisieren. Von Ahn schätzt, dass bisher pro Tag rund 60 Millionen Captcha-Eingaben getätigt werden. Der neue Dienst gibt dem Nutzer zwei Wörter vor: Das erste ist aus einem herkömmlichen Captcha-Test, und das zweite ist ein unbekanntes Wort, welches durch die Scansoftware nicht richtig erkannt wurde. Bei einer richtigen Eingabe des Benutzers wurde das Rätsel des unbekannten Wortes gelöst. Zurzeit bedarf es der identischen Eingabe von drei verschiedenen Nutzern, damit das Wort zum Digitalisieren freigegeben wird.

Das Recaptcha-Projekt digitalisiert Bücher für das Internet Archive. Das Projekt baut eine digitale Bibliothek mit kulturellem Material auf und konserviert Schnappschüsse historischer Webseiten. Von Ahns Spezialität ist das so genannte ‘Human Computation’: Das sind Technologien, bei denen die Computerfähigkeiten von Menschen genutzt werden. Zwei seiner viel beachteten Projekte waren Online-Spiele, bei denen die User Bilder beschrifteten, da die Rechner diese kaum identifizieren können.

Google hat diese Technologie lizenziert und bietet sie nun als den Google Image Labeler an, um seine eigene Bildersuche zu verbessern. Auch Microsoft Research hat seine eigene philanthropische Version der Captcha-Technologie. Das Assira-Projekt allerdings zeigt Bilder von Hunden und Katzen, keine Wörter.

Silicon-Redaktion

Recent Posts

CRM-Beratung: Wie Unternehmen von einer maßgeschneiderten Lösung profitieren können

Wie eine professionelle CRM-Beratung Unternehmen hilft, Prozesse zu optimieren, Kundenbindung zu stärken und Wettbewerbsvorteile zu…

11 Stunden ago

Cisco: Besseres Zusammenspiel von Mensch und KI

KI-Trends 2025: KI entwickelt sich vom Werkzeug zum Assistenten und Humanoide mit KI-Funktionen.

13 Stunden ago

eco Verband: Traditionelle Sicherheitsansätze unzureichend

Security-Trends 2025: Technologien wie KI und Quantencomputing schaffen neuartige Bedrohungen.

14 Stunden ago

Digitale Transformation der Produktionswirtschaft

Künstliche Intelligenz wird die industrielle Landschaft im Jahr 2025 fundamental verändern, sagt Gastautor Jürgen Hindler…

14 Stunden ago

“Erst Prozesse analysieren, dann KI gezielt einführen”

"Es gibt einige Fallstricke bei der Einführung von KI zu beachten, damit veränderte Prozesse wirklichen…

15 Stunden ago

Studie: Rund ein Drittel der APIs sind ungeschützt

Angriffe auf APIs und Webanwendungen sind zwischen Januar 2023 und Juni 2024 von knapp 14…

2 Wochen ago