Bei der Nutzung generativer KI in Geschäftsprozessen stehen Unternehmen vor der Herausforderung, das am besten geeignete Modell für ihre Einsatzzwecke zu identifizieren. “Die größten, leistungsfähigsten Modelle sind oftmals zu kostspielig und liefern mehr, als eigentlich benötigt wird”, so Clara Shih, CEO von Salesforce AI. In vielen Fällen seien Open-Source und/oder kleinere Modelle zu geringeren Kosten für viele Aufgaben mindestens genauso gut geeignet. Auch Geschwindigkeit und Benutzerfreundlichkeit bereiten Kopfzerbrechen. Der größte Hemmschuh liegt bei der Datensicherheit, wenn gegebenenfalls vertrauliche Daten in das LLM eingespeist werden. Zu guter Letzt erschwert das exponentielle Wachstum der Modelllandschaft die Übersicht noch weiter.

Anwendungsfälle in Vertrieb und Kundenservice

Der LLM Benchmark für CRM ist für Einsatzszenarien in Vertrieb und Kundenservice zugeschnitten. Er bildet Anwendungsfälle wie Zusammenfassungen von Verkaufschancen, Interessentengewinnung, Vorfallsberichte, wissensbasierte Empfehlungen für Support-Antworten und mehr ab. Da andere LLM-Benchmarks akademische und private Anwendungsfälle fokussieren, zu wenige Bewertungen durch Experten berücksichtigen sowie Kriterien wie Genauigkeit, Geschwindigkeit, Kosten und Vertrauen nicht miteinbeziehen, sind sie für Unternehmen kaum relevant. Deshalb umfasst der Benchmark auch ein öffentlich einsehbares Leaderboard, das Unternehmen dabei hilft, die Effektivität von generativen, KI-gestützten CRM-Lösungen zu beurteilen und informierter zu entscheiden, welches LLM für ihre CRM-Anforderungen am besten geeignet ist.

Die Kriterien im Überblick

Genauigkeit
Diese Metrik umfasst die vier Unterkategorien Richtigkeit, Vollständigkeit, Verständlichkeit und die Berücksichtigung der Eingabebefehle/Prompts. Denn nur präzise und korrekte Vorhersagen und Empfehlungen können durch informierte Aktionen in bessere Geschäftsergebnisse und Kundenerfahrungen münden.

Kosten
Die Messgröße für Kosten bezieht sich auf die geschätzten Betriebskosten, die je nach CRM-Anwendungsfall variieren können, und wird basierend auf Perzentilen in die Kategorien hoch, mittel und niedrig eingeteilt.

Geschwindigkeit
Die Reaktionsfähigkeit und Effizienz des LLMs bei der Verarbeitung und Bereitstellung von Informationen verbessert das Nutzererlebnis, verkürzt beispielsweise die Wartezeiten für Kund:innen und ermöglicht es Vertriebs- und Serviceteams, Anfragen und Aufgaben zeitnah zu bearbeiten.

Vertrauen und Sicherheit
Hierbei geht es um die Fähigkeit des LLMs, sensible Kundendaten abzuschirmen, die Datenschutzbestimmungen einzuhalten, Informationen zu sichern sowie Voreingenommenheit und Toxizität zu vermeiden. Daraus ergibt sich ein Wert für die Zuverlässigkeit von LLMs für CRM, der für mehr Transparenz im Hinblick auf Vertrauen und Sicherheit sorgt. Mit dem Einstein Trust Layer können Unternehmen ihre vertrauenswürdigen Daten und Metadaten unabhängig von dem erreichten Wert in jedem Modell sicher nutzen, ohne dass diese dort gespeichert oder für Trainingszwecke genutzt werden.

Roger Homrich

Recent Posts

BSI mahnt Smarthome-Nutzer zu mehr Wachsamkeit

Drei Viertel der Deutschen nutzen Smarthome-Geräte. Eine angemessene Absicherung gegen externe Zugriffe ist vielen jedoch…

1 Tag ago

KI im Kampf gegen Entwaldung

Wer in der EU mit Holz handelt, muss davon Muster einreichen. Der Prüfprozess ist jedoch…

2 Tagen ago

Krankenhäuser im Visier: Wird IT-Sicherheit zur Überlebensfrage?

Zahl der Cyberangriffe auf Krankenhäuser deutlich gestiegen. Ein Interview mit Dirk Wolters, Geschäftsführer von NeTec.

2 Tagen ago

KI als Chef für ein Viertel vorstellbar

Laut Kaspersky-Umfrage halten 28 Prozent der Deutschen Künstliche Intelligenz für neutraler als menschliche Vorgesetzte.

3 Tagen ago

Sechs von zehn Unternehmen Ransomware-Opfer

Jeder achte Betrieb hat Lösegeld gezahlt. Bei 17 Prozent waren Geschäftsprozesse massiv eingeschränkt. Nur jeder…

3 Tagen ago

EU AI Act: Unternehmen sehen Hindernis für die KI-Entwicklung

Aktuelle Befragung von Deloitte zeigt eine deutliche Verunsicherung bei der Einschätzung der neuen Verordnung.

3 Tagen ago