Zum Inhalt springen
Glossar

KI & Voice Agent Glossar

Die wichtigsten Begriffe rund um KI-Telefonassistenten, Voice Agents und Sprachautomatisierung -- verständlich erklärt.

ACD (Automatic Call Distribution)

Automatische Anrufverteilung -- ein System, das eingehende Anrufe nach definierten Regeln (z.B. Verfügbarkeit, Skill-Level, Wartezeit) an den richtigen Mitarbeiter oder die passende Abteilung weiterleitet. In modernen Voice Agent-Systemen übernimmt die KI diese Routing-Funktion intelligent und kann Anrufe basierend auf dem erkannten Anliegen zuordnen.

ASR (Automatic Speech Recognition)

Automatische Spracherkennung -- die Technologie, die gesprochene Sprache in Text umwandelt. ASR ist der erste Schritt in der Verarbeitungskette eines KI-Telefonassistenten: Der Anrufer spricht, ASR wandelt die Sprache in Text um, und anschließend verarbeitet das NLU-System die Bedeutung. Siehe auch: STT.

DSGVO (Datenschutz-Grundverordnung)

Die europäische Datenschutzverordnung, die regelt, wie personenbezogene Daten verarbeitet werden dürfen. Bei Voice Agents besonders relevant: Sprachdaten gelten als personenbezogene Daten und müssen auf EU-Servern (idealerweise deutschen Servern) verarbeitet werden. Eine Auftragsverarbeitungsvereinbarung (AVV) ist Pflicht. DSGVO und KI-Telefonie im Detail.

ElevenLabs

Ein führender Anbieter für KI-basierte Sprachsynthese (TTS). ElevenLabs ermöglicht extrem natürlich klingende Stimmen und Voice Cloning. Die Technologie wird häufig in Voice Agent-Systemen eingesetzt, um eine menschenähnliche Gesprächserfahrung zu bieten. ephesus-ai nutzt ElevenLabs für hochwertige deutsche Sprachausgabe.

IVR (Interactive Voice Response)

Interaktives Sprachdialogsystem -- die klassische Telefonmenü-Technologie ("Drücken Sie 1 für Termine, 2 für Rechnungen..."). IVR-Systeme sind regelbasiert und starr. Moderne Voice Agents ersetzen IVR durch natürliche Konversation: Anrufer können ihr Anliegen frei formulieren, statt sich durch Menüs zu navigieren.

KI-Telefonassistent

Ein KI-gestütztes System, das eingehende und ausgehende Telefonate automatisiert führt. Kombiniert ASR, NLU, LLM und TTS zu einem durchgehenden Gesprächserlebnis. Kann Termine buchen, Fragen beantworten, Leads qualifizieren und an Mitarbeiter weiterleiten. Die 10 Vorteile eines KI-Telefonassistenten.

LLM (Large Language Model)

Großes Sprachmodell -- eine KI, die auf riesigen Textmengen trainiert wurde und natürliche Sprache verstehen und generieren kann. Bekannte Beispiele: GPT-4, Claude, Llama. In Voice Agents bildet das LLM das "Gehirn", das entscheidet, was der Agent antwortet. Durch Prompt Engineering wird das LLM auf den spezifischen Anwendungsfall zugeschnitten.

NLP / NLU (Natural Language Processing / Understanding)

NLP (Verarbeitung natürlicher Sprache) ist der Oberbegriff für die maschinelle Verarbeitung von Sprache. NLU (Verstehen natürlicher Sprache) ist die Teilmenge, die sich auf das Erkennen von Bedeutung, Absicht und Kontext spezialisiert. Bei einem KI-Telefonassistenten bestimmt NLU, ob ein Anrufer einen Termin buchen, eine Beschwerde einreichen oder eine Information abrufen möchte.

Prompt Engineering

Die Kunst und Wissenschaft, Anweisungen (Prompts) für LLMs so zu formulieren, dass das gewünschte Verhalten erzielt wird. Bei Voice Agents definiert der Prompt u.a. die Persönlichkeit, Tonalität, erlaubte Themen, Gesprächsabläufe und Eskalationsregeln des Assistenten. ephesus-ai übernimmt das komplette Prompt Engineering als Teil des Managed Service.

RAG (Retrieval-Augmented Generation)

Eine Technik, bei der ein LLM vor der Antwortgenerierung relevante Informationen aus einer Wissensdatenbank abruft. Für KI-Telefonassistenten bedeutet das: Der Agent kann auf aktuelle Öffnungszeiten, Preislisten oder FAQ zugreifen und immer korrekte, unternehmensspezifische Auskünfte geben -- ohne Halluzinationen.

SIP Trunking

SIP (Session Initiation Protocol) Trunking ist die Verbindung zwischen einem VoIP-System und dem öffentlichen Telefonnetz. Über einen SIP Trunk erhält ein Voice Agent eine echte Telefonnummer und kann reguläre Anrufe entgegennehmen und tätigen. Die Einrichtung erfordert technisches Know-how -- bei ephesus-ai ist sie im Setup inklusive.

Speech-to-Text

Die Umwandlung von gesprochener Sprache in geschriebenen Text. Synonym zu ASR und STT. Moderne Speech-to-Text-Systeme wie Whisper oder Deepgram erreichen nahezu menschliche Erkennungsraten -- auch für deutsche Sprache mit Dialekt und Fachjargon.

STT (Speech-to-Text)

Abkürzung für Speech-to-Text. In der Voice-Agent-Architektur der erste Verarbeitungsschritt: Das gesprochene Wort des Anrufers wird in Text umgewandelt, damit das LLM es verarbeiten kann. Siehe auch: ASR.

Text-to-Speech

Die Umwandlung von geschriebenem Text in gesprochene Sprache. Synonym zu TTS. Moderne TTS-Systeme wie ElevenLabs erzeugen Stimmen, die von menschlichen Sprechern kaum zu unterscheiden sind -- mit natürlicher Intonation, Pausen und Betonung.

TTS (Text-to-Speech)

Abkürzung für Text-to-Speech. Der letzte Schritt in der Voice-Agent-Pipeline: Die Textantwort des LLM wird in natürlich klingende Sprache umgewandelt und dem Anrufer vorgespielt. Die Qualität der TTS-Stimme beeinflusst massgeblich das Gesprächserlebnis.

Voice Bot

Ein sprachgesteuertes Dialogsystem, das häufig auf regelbasierten Dialogbäumen aufbaut (ähnlich wie IVR, aber mit Spracherkennung statt Tasteneingabe). Voice Bots eignen sich für einfache, strukturierte Abfragen. Für komplexere Gespräche werden zunehmend LLM-basierte Voice Agents eingesetzt.

VoIP (Voice over Internet Protocol)

Telefonie über das Internet statt über klassische Telefonleitungen. VoIP ist die technische Grundlage für Voice Agents: Anrufe werden als Datenpakete übertragen, was die Integration mit KI-Systemen ermöglicht. Über SIP Trunking werden VoIP-Systeme mit dem öffentlichen Telefonnetz verbunden.

Webhook

Ein automatischer HTTP-Callback, der bei einem bestimmten Ereignis ausgelöst wird. Bei Voice Agents werden Webhooks genutzt, um nach einem Anruf automatisch Aktionen auszulösen: z.B. einen Termin im Kalender anlegen, eine E-Mail senden, einen CRM-Eintrag erstellen oder ein Ticket in einem Helpdesk-System öffnen.

Von der Theorie zur Praxis

Erlebe in einer kostenlosen Demo, wie diese Technologien in deinem Unternehmen zusammenarbeiten.

Häufige Fragen

Was ist ein Voice Agent? +

Ein Voice Agent ist ein KI-basiertes System, das Telefonate automatisiert führen kann. Er versteht gesprochene Sprache (ASR/STT), verarbeitet die Intention (NLU) und antwortet mit einer natürlich klingenden Stimme (TTS). Voice Agents können Termine buchen, Fragen beantworten und Anrufe weiterleiten -- rund um die Uhr.

Was ist der Unterschied zwischen Voice Agent und Voice Bot? +

Die Begriffe werden oft synonym verwendet. Technisch gesehen nutzt ein Voice Bot meist regelbasierte Dialogführung (ähnlich einem IVR-System), während ein Voice Agent auf Large Language Models basiert und dadurch frei, kontextbezogen und natürlich kommunizieren kann.

Was bedeutet DSGVO-Konformität bei Voice Agents? +

DSGVO-Konformität bei Voice Agents bedeutet, dass alle Sprachdaten auf europäischen (idealerweise deutschen) Servern verarbeitet werden, eine Auftragsverarbeitungsvereinbarung (AVV) vorliegt, Anrufer über die KI-Verarbeitung informiert werden und Daten nach definierten Fristen gelöscht werden.