Google findet jetzt auch Gescanntes

Nun hat Google dem ein Ende gesetzt. Das Suchportal sei nun in der Lage in PDF-Dokumenten eine Optical Character Recognition (OCR) durchzuführen. OCR liest Zeichen und Buchstaben aus den Bilddateien aus und indexiert so die Inhalte. Damit können Anwender nun auch innerhalb von Scans nach bestimmten Schlagworten und Begriffen suchen.

Egal ob in Behörden oder Forschungsberichte – täglich wandern Tausende solcher PDF-Dokumente ins Web. Diese Dokumente enthalten aber meist keinen Text, sondern Bilder eines Textes. “Daher waren solche Dokumente in der Vergangenheit selten in den Suchergebnissen enthalten, weil wir über den Inhalt keine genauen Angaben hatten”, heißt es in einem Google-Blog dazu.

Die Suchmaschine konnte bisher nur über externe Verweise auf das Dokument Rückschlüsse über den Inhalt treffen. Wurden bei einer Anfrage solche Dokumente gelistet, spuckte das Portal nur einen Titel aus, jedoch keine Inhaltszusammenfassung.

Diese neue Form der Indexierung bietet technisch einige Herausforderungen. Denn solche Scans haben ja nicht nur Bilder von Buchstaben, sondern beinhalten auch andere Informationen, wie zum Beispiel Ringe von abgestellten Kaffetassen, kleine Verunreinigungen, die die Software vielleicht als Punkt interpretieren könnte, oder andere Beeinträchtigungen.

Für den menschlichen Leser ist es selten ein Problem, zwischen einem Kaffefleck und einem O zu unterscheiden, anders aber für den Rechner. Wie zwei Beispiele zeigen, haben die Entwickler bei Google jedoch diese Herausforderung gemeistert:

Beispiel 1: ‘Repairing Aluminum Wiring’

Beispiel 2: ‘The performance of spin lock alternatives’

Silicon-Redaktion

Recent Posts

GenKI verbessert Datenmanagement und Angebotsgenauigkeit

DHL Supply Chain nutzt generative KI-Anwendungen für Datenbereinigung und präzisere Beantwortung von Angebotsanforderungen (RFQ).

4 Minuten ago

Rolls-Royce Power Systems nutzt industrielle KI aus der IFS Cloud​

Marke mtu will globale Serviceabläufe optimieren und strategische Ziele hinsichtlich Effizienz, Nachhaltigkeit und Wachstum unterstützen.

12 Minuten ago

Thomas-Krenn.AG: viele Pflichten, knappe Ressourcen, mehr freie IT-Welt

IT-Infrastruktur-Trends 2025: Open-Source-Projekte sowie aufwändige regulatorische und Pflichtaufgaben werden das Jahr prägen.

38 Minuten ago

KI im SEO: So erzielen Sie optimale Ergebnisse

Künstliche Intelligenz gewinnt im Bereich der Suchmaschinenoptimierung zunehmend an Bedeutung. Durch Technologien, die menschliches Verhalten…

3 Stunden ago

Stadt Kempen nutzt Onsite Colocation-Lösung

IT-Systeme werden vor Ort in einem hochsicheren IT-Safe betrieben, ohne auf bauliche Maßnahmen wie die…

1 Tag ago

SoftwareOne: Cloud-Technologie wird sich von Grund auf verändern

Cloud-Trends 2025: Zahlreiche neue Technologien erweitern die Grenzen von Cloud Computing.

1 Tag ago