Was passiert, wenn KI nicht mehr nur ein Werkzeug ist, in das man tippt, sondern zu etwas wird, mit dem man spricht? In dieser Folge spricht Galen Low mit Oliver Shoulson, Leiter für Agenten-Design und Ingenieurwesen bei PolyAI, und beleuchtet das überraschend menschliche Problem im Zentrum von Konversations-KI: Die meisten KI-Gespräche wirken immer noch befremdlich.
Von holprigen Chatbot-Skripten bis zu übertrieben höflichen, von „HR-Robotern“ antrainierten „LLM-Stimmen“ erklärt Oliver, warum gutes Konversationsdesign weniger damit zu tun hat, Menschen perfekt zu imitieren, sondern vielmehr, Reibung zu entfernen. Das Gespräch erforscht die Psychologie des Vertrauens, die Mechanik von sozialer Präsenz und warum die Zukunft von KI-Schnittstellen weniger vom visuellen Design als vom Verständnis des natürlichen Sprachgebrauchs der Menschen, ihren Unterbrechungen, Zögern, Klarstellungen und Zusammenarbeit abhängen könnte.
Was Sie lernen werden
- Warum Konversations-KI abhängig von sozialer Präsenz und Vertrauen Erfolg hat oder scheitert
- Die verborgenen Designfehler, die KI-Interaktionen unheimlich oder frustrierend wirken lassen
- Wie Timing, Unterbrechungen und Gesprächsfluss das Nutzererlebnis prägen
- Warum Sprach-KI andere Kundenerfahrungen erzeugt als textbasierte Chatbots
- Die Rolle von Pragmatik und gemeinsamem Kontext im natürlichen Gesprächsdesign
- Warum „hilfreiches“ LLM-Verhalten oft Vertrauen untergräbt, statt es zu fördern
- Wie Unternehmen gebrandete KI-Stimmen nutzen, um das Kundenerlebnis zu erweitern
- Warum Sprache trotz jüngster Durchbrüche eines der schwierigsten Probleme in der KI bleibt
- Was visuelle Designer beim Entwerfen von Konversationsschnittstellen neu überdenken müssen
- Wie KI-zu-KI-Kommunikation sich über menschliche Sprachmuster hinaus entwickeln könnte
Wichtigste Erkenntnisse
- Die meisten KI-Gespräche scheitern, weil sie den Nutzern zu viel abverlangen
Gutes Konversationsdesign nimmt den Nutzern die Last, die Interaktion selbst steuern zu müssen. Wie Oliver erklärt, sollten Anwender nicht erst die Menülogik oder Dialogstruktur eines KI-Systems entschlüsseln müssen, nur um ein einfaches Problem zu lösen. Die besten KI-Dialoge erlauben es den Menschen, sich auf ihre instinktiven Gesprächsgewohnheiten zu verlassen, anstatt sie in starre Abläufe zu zwingen. - Sprachinteraktionen erzeugen Vertrauen anders als Text
Menschen greifen immer noch zum Telefon, weil gesprochene Gespräche ein stärkeres Gefühl von „sozialer Präsenz“ hervorrufen. Der Dialog in Echtzeit erhöht Vertrauen, Bindung und Zuversicht in die Interaktion. Das ist keine Nostalgie, sondern kognitive Verkabelung. - Das unheimliche Tal der KI liegt oft in der Sprache, nicht im Visuellen
Das Problem sind nicht nur synthetische Stimmen oder robotische Formulierungen. Es ist, wenn KI subtile Gesprächsnormen verletzt, die Menschen kaum bewusst wahrnehmen. Zu ausführliche Erklärungen, offensichtlich erklärte Schritte oder das Ignorieren von gemeinsamem Kontext zerstören die Illusion einer kollaborativen Konversation. - „Hilfreiche“ KI klingt oft bevormundend
Große Sprachmodelle sind darauf trainiert, möglichst sicher, zustimmend und erklärend zu sein. Doch in echten Gesprächen kann zu viel Erklärung Inkompetenz oder Distanz suggerieren. Manchmal ist die natürlichste Interaktion einfach: „Wie lautet Ihre Kontonummer?“ und nicht ein sechszeiliger Hinweis, warum diese benötigt wird. - Timing ist wichtiger als den meisten Teams bewusst ist
Menschliche Gespräche verlaufen schnell. Verzögerungen von mehr als wenigen hundert Millisekunden wirken unnatürlich. Konversationelle KI muss Unterbrechungen, Pausen, Füllwörter und Gesprächs-Dynamik einbeziehen, die Menschen unterbewusst verarbeiten. - Echte Callcenter-Mitarbeiter enthalten bereits die Daten, die Designteams brauchen
Eine der stärksten Empfehlungen von Oliver: Verbringen Sie Zeit mit Kundenserviceteams. Hören Sie zu, wie echte Menschen Fragen stellen, unterbrechen, klarstellen und Probleme lösen. Die meisten Organisationen besitzen bereits die Gesprächsmuster, die sie nachbilden wollen. - KI muss Menschen nicht täuschen, um natürlich zu wirken
Ziel ist nicht Täuschung, sondern Reibungsminimierung. Natürliches Konversationsdesign ermöglicht den Nutzern, sich auf ihre Problemlösung zu konzentrieren, statt herauszufinden, wie sie mit dem System interagieren müssen. - Wir nähern uns möglicherweise den Grenzen reiner Sprachmodell-Skalierung
Oliver argumentiert, dass heutige LLMs einen ingenieurtechnischen Durchbruch darstellen, aber kein vollständiges Verständnis menschlicher Kognition. Einfach das Skalieren größerer Modelle wird irgendwann zu abnehmenden Erträgen führen, besonders bei Schlussfolgerungen und Kontextverständnis. - Zukünftige KI-Agenten sprechen vielleicht gar nicht mehr wie Menschen
Da KI-Systeme zunehmend untereinander kommunizieren, könnten menschenähnliche Gesprächsnormen völlig verschwinden. Der höfliche Austausch, den wir mit Sprache verbinden, beruht letztlich vielleicht mehr auf menschlicher Kognition als auf optimalem Informationsaustausch.
Kapitel
- 00:00 — Warum KI-Konversationen seltsam wirken
- 02:33 — KI, Webseiten und Navigation
- 06:30 — Stimme vs. visuelles Design
- 10:33 — Wo Sprach-KI heute funktioniert
- 13:35 — „LLM-Stimme“ verbessern
- 16:37 — Warum Menschen immer noch anrufen
- 20:06 — Soziale Präsenz und Vertrauen
- 22:12 — Ethische Aspekte von Konversationen
- 25:38 — Häufige Fehler beim KI-Design
- 31:06 — Timing und Rhythmus im Gespräch
- 33:40 — Warum Übererklärungen das Vertrauen zerstören
- 40:16 — Natürliches Konversationsdesign
- 42:22 — Warum Sprache für KI schwierig ist
- 46:53 — Gestaltung von Sprachschnittstellen
- 51:06 — KI spricht mit KI
- 54:11 — Die Zukunft der KI-Hardware
Lernen Sie unseren Gast kennen

Oliver Shoulson ist Leiter Agent Design & Engineering bei PolyAI, wo er bei der Gestaltung und Entwicklung fortschrittlicher, gesprächsorientierter KI-Systeme mitwirkt, die natürliche, menschenähnliche Kundeninteraktionen für globale Unternehmen ermöglichen. Mit einem Hintergrund in KI-Engineering, Dialogsystemen und nutzerzentriertem Design spezialisiert sich Oliver darauf, technische Innovationen mit praxisnaher Nutzbarkeit zu verbinden und skalierbare Sprach- und Chat-Erlebnisse zu schaffen. Er begeistert sich für die Zukunft der Konversations-KI und dafür, wie intelligente Agenten den Kundenservice, die betriebliche Effizienz und die Mensch-Computer-Interaktion transformieren können.
Ressourcen aus dieser Episode:
- Werden Sie Teil der Digital Project Manager Community
- Abonnieren Sie den Newsletter, um unsere neuesten Artikel und Podcasts zu erhalten
- Vernetzen Sie sich mit Oliver auf LinkedIn
- Schauen Sie sich Olivers Website an
- Besuchen Sie PolyAI
Verwandte Artikel und Podcasts:
Galen Low: Hi, ich bin Galen, der agentengesteuerte, KI-gestützte virtuelle Podcast-Host-Avatar des Digital Project Manager. Nur ein Scherz. Aber wie sehr würdest du darauf wetten, dass dein Erleben dieses Podcasts anders wäre, wenn du denkst, dass ich nur eine KI bin? Genau darum geht es heute: Die Prinzipien, die eine gelungene Konversationsinteraktion mit KI ausmachen – im Gegensatz zu den frustrierenden, wutentfachenden, fremdartigen Negativbeispielen, die uns als Memes im Instagram-Feed begegnen.
Tatsache ist, dass viele von uns heute gebeten werden, Agenten und KI-Teammitglieder zu erschaffen, mit denen unsere Kollegen und Stakeholder interagieren – und zwar nicht nur Texttools, sondern auch sprachbasierte Anwendungen. Doch wenn das, was wir bauen, die Nutzererfahrung zu sehr erschwert, landen diese Tools schnell im Regal der gescheiterten KI-Experimente.
Um uns dabei zu helfen, bessere Interaktionen mit KI zu gestalten, habe ich einen Experten eingeladen, der an vorderster Front im Bereich Conversation Design arbeitet. Gemeinsam packen wir den ROI menschlicher, reibungsfreier Sprachinteraktion aus, erkunden, wo die Mühe für gute Gestaltung an ihre Grenzen stößt, und zeigen, wie kleine Tweaks helfen können, sich von dieser überfreundlichen, menschengefälligen LLM-Stimme zu verabschieden, die immer mehr Menschen nervt.
Viel Spaß bei der Folge!
Willkommen beim Digital Project Manager Podcast – der Show, die Delivery-Leadern hilft, smarter zu arbeiten, reibungsloser zu liefern und ihre Teams im Zeitalter der KI souverän zu führen. Ich bin Galen, und jede Woche tauchen wir tief ein in Praxistipps, Trends, erprobte Frameworks und gelegentliche Projekt-Kriegsgeschichten. Egal, ob du gewaltige Transformationsprojekte steuerst, KI-Workflows bändigst oder einfach nur das Chaos im Griff behalten willst – hier bist du richtig. Los geht’s!
Heute geht es darum, wie Conversation Design das Vertrauen in KI beeinflusst. Wir besprechen die häufigsten Fehler, die Teams bei der Gestaltung von KI-basierten Konversationserfahrungen machen, und wie man sie vermeidet. Wir tauchen ein, warum Sprache und KI ein komplexes Paar sind und geben Prognosen ab, wie KIs in Zukunft miteinander sprechen werden.
Bei mir ist heute Oliver Shoulson, Agent Design and Engineering Lead bei PolyAI. Oliver ist Linguist und Vordenker im Bereich Conversational AI. Er arbeitet genau an der Schnittstelle von Sprache, Produktdesign und KI. Während seiner Zeit an der Yale University lag sein Fokus auf syntaktischen Varianten – also darauf, wie Sprecher Sätze unterschiedlich aufbauen, obwohl sie sich an die strukturierten Regeln der Sprache halten. Und das ist heute hoch relevant, wenn Oliver Teams bei PolyAI hilft, über holprige Skripte und Uncanny Valley hinwegzugehen hin zu Sprachinteraktionen mit KI, die wirklich natürlich und nützlich wirken.
Oliver, danke, dass du heute dabei bist.
Oliver Shoulson: Vielen Dank für die Einladung. Es freut mich sehr, hier zu sein.
Galen Low: Das ist für mich wirklich ein spannendes Thema. Unsere Vorgespräche haben mir gefallen, weil ich da mal wieder nerdig werden konnte. Ich habe an der Uni auch ein bisschen englische Grammatik und Linguistik studiert.
Das hat mich immer fasziniert. Ich bin aber dann einen anderen Weg gegangen – in Richtung Filmwissenschaft. Doch auf dem Weg mit KI und Chatbots, diesen immer flüssigeren, weniger starren Interaktionen, war ich plötzlich wieder voll im Thema. Als dein Name fiel, dachte ich: "Den Mann muss ich sprechen!"
Ich hoffe, wir streifen viele Bereiche ab. Es gibt genug Rabbit Holes, in die wir abtauchen könnten – aber ich bin Projektmanager, also gibt’s sicherheitshalber den von mir geplanten Fahrplan für heute. Zum Einstieg wollte ich dich direkt mit der einen großen, haarigen Frage konfrontieren, die meine Hörer interessiert.
Dann dachte ich, wir zoomen nochmal raus und besprechen drei Dinge: Erstens, warum Sprachinteraktionen mit KI wirklich zählen – und welchen messbaren Einfluss sie heute für Unternehmen und Nutzer haben. Dann gehen wir darauf ein, was eine gute Konversationsinteraktion ausmacht und wie Teams beim Bau von KI-Agenten oder Teamkollegen dieses Cringe-Gefühl vermeiden, das User abschreckt.
Und zuletzt interessiert mich deine Sicht auf die Zukunft von Interaction Design und ob vielleicht visuelle Interfaces in Zukunft hinter die konversationelle Sprache zurücktreten. Klingt das gut für dich?
Oliver Shoulson: Klingt super für mich.
Galen Low: Perfekt. Dann legen wir los. Ich würde mit der einen großen, haarigen Frage anfangen, mir aber gerne einen Anlauf nehmen, denn in meinem Netzwerk sind viele Digital Professionals, die Websites bauen, Marketing-Kampagnen oder Digital-Transformation-Strategien umsetzen.
Unsere Ohren spitzen sich, wenn die Schlagzeilen sagen, dass sich das Web fundamental verändern wird – zumindest auch wegen der Integration von KI in die Browser-Erfahrung, etwa durch AI-Overviews, AI-Browser, AI-Copilots und so weiter.
Wie weit sind wir deiner Meinung nach von einem Internet entfernt, in dem Konversation Navigation ersetzt – und was hält uns davon ab?
Oliver Shoulson: Ich denke auf jeden Fall, dass es Wege geben wird, wie wir Websites und das Internet insgesamt besser für KI-Agenten navigierbar machen.
Ich halte das für unausweichlich, und das ist vermutlich auch gut so – es erhöht die Effizienz, mit der unsere Agenten Aufgaben für uns erledigen können. Dasselbe gilt aber auch: Ich will nicht – und ich kenne auch niemanden, der das möchte – ein Internet, das man nur noch bequatscht, ohne es je zu sehen.
Die Aufgabe von Interface-Designern aller Art – egal ob grafisch oder konversationell – ist es, mit unserem Wissen über kognitive Architektur und Biases intuitive Zugriffsmöglichkeiten auf digitale Welten zu gestalten.
Lange Zeit gab es brillante GUI-Designer, die Interaktionen aus der physischen Welt clever simuliert und ins Web gebracht haben: Slideregler, Schalter, Buttons – Dinge, die unserem angeborenen Verständnis für physisches Bedienen entsprechen. So ist das Interface direkt intuitiv.
Wir müssen nicht alles neu lernen, sondern übertragen bekannte Muster aufs Digitale. Konversationelle Interfaces machen im Grunde dasselbe, nur mit einer anderen Fähigkeit: unserer Sprache. Bis vor kurzem konnten wir das gar nicht realistisch simulieren.
Der Durchbruch der großen Sprachmodelle ist, dass sie – mit ausreichend Daten, Training und Supervision – erstmals überzeugend menschliche Sprache erzeugen. Das eröffnet neue Zugangswege, ist aber nicht grundsätzlich besser oder schlechter als grafische Interfaces.
Beides spricht unterschiedliche Aspekte des menschlichen Erlebens an.
Galen Low: Mir gefällt deine Analogie zu realen Dingen. Als digitaler Mensch abstrahiere ich das oft weg: Buttons, Radio-Buttons, Checkboxen, Slider – klar gibt’s die auch physisch, als Schalter oder Drehregler. Und ebenso logisch ist es, die Sprachfähigkeit einzusetzen – aber eben nur als Baustein eines Nutzererlebnisses, nicht als Allzwecklösung.
Oliver Shoulson: Genau. Ich selbst bin ein visueller Mensch, mache auch Kunst außerhalb des Jobs.
Galen Low: Oh ja?
Oliver Shoulson: Daher fände ich es schade, wenn Web- oder Grafikdesign künftig der Konversation untergeordnet würden. Das ist nicht mein Ziel als Conversation Designer, und ich hoffe auch, dass niemand sonst das möchte. Beide Bereiche sind spannend und benötigen einzigartige Skills. Ich wünsche mir, dass sie weiterhin nebeneinander gedeihen.
Galen Low: Was mich umtreibt: Die Sorge, dass Websites kaum mehr direkt besucht werden. Ein Teil ihrer Ökonomie lebt ja von Klicks, Sichtbarkeit des eigentlichen Interface.
AI-Overviews fungieren wie eine Art Zwischen-Website, die außerhalb der Unternehmenssteuerung liegt und über eigene Interaktionskonzepte verfügt, oft stark konversationsbasiert, weil der Nutzer etwa Gemini oder ein LLM seiner Wahl Fragen stellt.
Ist das okay? Oder ein Kompromiss auf Kosten des Zielerlebnisses?
Oliver Shoulson: Schwierige Frage und ehrlich gesagt auch neu für mich. Ich hoffe, dass dieses Zwischenglied ein Standardbestandteil von Branding und Webentwicklung wird, sodass Firmen auch hier Steuerung ausüben können.
Für Unternehmen ist es wichtig, eine konsistente Markenidentität zu entwickeln und zu präsentieren – das war im Visuellen so, und das ist beim Konversationellen nicht anders. Die Sorge, dass diese Identität durch das Zwischenlayer verwässert oder gar verfälscht werden kann, ist also berechtigt.
Ich denke, Agenturen, die für Unternehmen Web- oder Digitalpräsenzen bauen, werden nach Wegen suchen, auch diese KI-Schicht mitzugestalten und zu kontrollieren.
Galen Low: Genau – die Brand Voice ist Teil der Experience. Wir bitten einen Assistenten, die Seite vorzulesen oder zusammenzufassen, bekommen aber nie das ganze Erlebnis, sondern vielleicht nur schnelle Infos, nicht die Intention des Betriebs.
Das führt mich zur nächsten Frage, auch in Bezug auf PolyAI: Hier steht Sprach-KI teilweise stellvertretend für die menschliche Interaktion in Restaurants, Banken oder Gesundheitszentren. Was leistet Voice-KI hier aktuell – und wie unterscheidet sich das von klassischen Chatbots der letzten Jahre?
Oliver Shoulson: Jeder Callcenter-Manager wird dir bestätigen: Die Leute rufen immer noch an.
Auch wenn vielen das Telefonieren missfällt, ist das Telefon nach wie vor ein zentraler Supportkanal. Einer der größten Mehrwerte unserer Voice-Lösung für Kunden ist, saisonale oder volumenbedingte Schwankungen und Fluktuationen im Contact Center abzufangen.
Ein Beispiel: Einer unserer ältesten Kunden aus dem Einzelhandel hatte zum ersten Mal die Möglichkeit, allen Contact-Center-Mitarbeitern zu Black Friday frei zu geben – weil die KI den Support stemmte.
Galen Low: Wow!
Oliver Shoulson: Das ist ein Gewinn für das Unternehmen, die Kunden und die Contact-Center-Mitarbeiter. Wir wollen menschliche Servicecenter ergänzen, nicht ersetzen. Es wird immer Anliegen geben, die menschliches Feingefühl erfordern – wir helfen, die Standardfälle zu automatisieren, sodass Menschen nur für komplexe Anliegen gebraucht werden.
Oft geht es um die immer gleichen 20 % der Probleme – wenn man die automatisiert, ist das ein riesiger Mehrwert.
Der zweite große Punkt: Voice ermöglicht eine gebrandete Experience. Die Identität, die ein Unternehmen über Jahre aufgebaut hat, kann durch eine generische LLM-Chatbot-Persona verwässert werden. Beispiel: Unser Kunde Fogo de Chão – eine brasilianische Steakhaus-Kette – wollte die Stimme von Selma, einer langjährigen CX-Leiterin, klonen.
Wir haben Selma als KI-Agentin nachgebaut, die die Anrufe zu Reservierungen etc. entgegennimmt. Dadurch entstand eine Erweiterung der Markenidentität – Selma konnte virtuell Millionen Menschen bedienen, was sonst unmöglich wäre. Das schafft Text auf einem Bildschirm nicht.
Galen Low: Stimmt, die LLM-Stimme ist mittlerweile bekannt – dieses überfreundlich-saubere Freundlichkeitslevel. Sie ist eine Persönlichkeit – aber selten passend, nicht wie Selma.
Wie klappt es, Selmas Persönlichkeit einzubauen? Braucht man wochenlang Sprachaufnahmen – oder wie entsteht solche Authentizität?
Oliver Shoulson: Für das Klonen der Stimme braucht es ausreichend Trainingsdaten, damit wir Akzent, Sprechweise und auch typische Füllwörter übernehmen können.
Für die eigentliche Persönlichkeit ist Conversation Design entscheidend: Wir steuern mit Prompts, Retrieval und Guardrails, welchen Stil und welche Persona das Modell zurückgibt. Wir haben viele Stellschrauben, um aus der generischen LLM-Persona herauszukommen, besonders bei eigenen, inhouse trainierten Modellen. Dadurch reagieren sie viel sensibler auf Persönlichkeits-Prompts und Konversationsstil und nicht nur auf Anweisungen.
Galen Low: Normalerweise meint man mit Guardrails ethische oder sicherheitsbezogene Grenzen. Du meinst aber auch Markengrenzen – also wie viel Persönlichkeit heraussoll?
Oliver Shoulson: Ja, Guardrails für die Identität ebenso wie für Sicherheit/Datenschutz. Es geht darum, die Stimme und das Bild der Marke zu schützen. LLMs unbeaufsichtigt einzusetzen, birgt auch die Gefahr für die Brand Identity. Deshalb investieren wir viel in die entsprechende Steuerung.
Galen Low: Du hast angesprochen: Manche wollen das Telefon – auch wenn mancher wie ich es unangenehm findet. Was ist das Besondere am Telefon für User?
Oliver Shoulson: Ein alter, aus der Mensch-Maschine-Interaktion stammender Begriff ist "soziale Präsenz" – das Gefühl, mit einem echten Menschen in Echtzeit verbunden zu sein. Studien zeigen: Je höher das soziale Präsenzgefühl, desto mehr Vertrauen und Zufriedenheit resultieren daraus – auch was Datenschutz betrifft. Deshalb suchen viele genau dieses reale Miteinander, gerade im Customer Service.
Echte soziale Präsenz gibt es am intensivsten Face-to-Face, dann im Video-Call, dann am Telefon, zuletzt beim Texten. Menschen suchen Möglichkeiten, diese soziale Präsenz herzustellen.
Galen Low: Interessant, gerade bei E-Mails oder Chat fehlt oft diese sofortige Verantwortlichkeit, die man im direkten Gespräch hat – das echte "Kümmern"-Gefühl. Je sozial präsenter das Design, desto vertrauensvoller und effektiver wird das Erlebnis – das baut Loyalität auf.
Oliver Shoulson: Genau, und Design kann dieses Gefühl fördern. Es reicht nicht, nur den Kanal zu wählen – entscheidend ist, dass es keine Standardantworten oder Werbetexte gibt. Das wirkt distanziert und zerstört die soziale Präsenz. LLMs können das leider oft per Default.
Galen Low: Das wird bei LLMs häufig vergessen. Sie sind für nahezu jeden Anwendungsfall gebaut – daher ist die Persona zwangsläufig generisch, freundlich, gefällig, universell verständlich. Aber einige wünschen sich sogar, dass ihr LLM mal etwas frotzeliger ist, um eben nicht immer nur Softness zu erleben.
Oliver Shoulson: Klar, ich finde es besser, wenn lieber eine KI als ein Mensch Ziel von Frust wird. Aber auch als Designer und für Unternehmen wollen wir nicht, dass Nutzer grenzenlos auf der KI herumhacken. Auch KI sollte Grenzen setzen können, auch um Werte der guten Konversation zu wahren. Das ist mir wichtig.
Galen Low: Das sehe ich auch so. Verhalten in einem Kanal wirkt sich auf andere aus. Wer KI-Anwendungen grob behandelt, normalisiert dieses Verhalten. Und dann wird es auch in anderen Bereichen gesellschaftlich akzeptabler.
Sollte man einer KI "Danke" sagen?
Oliver Shoulson: Interessante soziolinguistische Frage. Es gibt sicher Forschung dazu, wie Interaktion mit virtuellen Assistenten auf das echte Miteinander abfärbt – habe aber nichts Endgültiges gelesen.
Galen Low: Genau, Studien fehlen mir da auch, aber das Thema wird sicher wissenschaftlich bearbeitet.
Du bist Linguist an der vordersten Linie der Conversational AI. Du siehst sicher viele, denen "natürliche" Lösungen misslingen – gerade, weil viele jetzt KI-Agenten bauen sollen, ohne Sprach- oder KI-Expertise. Was sind die größten Designfehler, die du siehst, und was erzeugt das "Komischkeitsgefühl" bei Nutzern?
Oliver Shoulson: Das Fundamentale zuerst: Gespräch im gesprochenen Wort ist chaotisch – mit Unterbrechungen, Selbstkorrekturen, schnellen Wechseln. Menschliche Gesprächspartner sprechen manchmal gleichzeitig – oder reagieren mit extrem kurzen Pausen (200-300ms). Für LLM-basierte Sprachsysteme ist die technische Herausforderung enorm, diese Geschwindigkeit abzubilden. Ein echter Use Case liegt bei aktuell rund drei Sekunden Pause zwischen den Wechseln.
Wenn ich nicht unterbrechen kann oder die KI mich nicht, gehen wichtige Konversationsdynamiken verloren – etwa beim Klären von Missverständnissen. Die KI weiß oft nicht, wie viel sie bereits gesagt hat, wenn sie unterbrochen wird. Bei der Frage nach einer neuen Karte zum Beispiel: Sagt der Kunde nach "Möchten Sie den Status einer neuen Karte prüfen oder eine verlorene melden?" einfach "Ja" direkt nach dem ersten Teil, versteht die KI das meist nicht.
Das ist hochkomplex – muss sitzen, damit a) die Bedienung stimmt und b) das Erlebnis nicht "falsch" wirkt (Uncanny Valley).
Außerdem gibt es im Sprachlichen kein Protokoll wie im Chat. LLMs sind auf strukturierten Text trainiert – Bulletpoints, längere Absätze, Titel, Tabellen. Beim Telefonieren vermitteln wir Informationen sequenziell und unterstützen Nutzer mit Nachfragen, Buchstabieren, Warten, Wiederholen – das ist ein eigenes Muster, das Modelle lernen müssen, um komplexe Daten wie Adressen etc. abzufragen.
Das sind die "langweiligen" Basics, aber ohne sie funktioniert das Ganze nicht. Erst dann kommen die spannenden, linguistischen Feinheiten ins Spiel, die das Cringe-Gefühl auslösen oder verhindern.
Galen Low: Ich hätte nie gedacht, wie wichtig das Timing ist. Bei Text-LLMs tippe ich einfach, gehe weg, komme zurück. Das ist kein echter Dialog, sondern Aufgabenübergabe. Am Telefon aber braucht es Rhythmus, Füllwörter, kleine Bestätigungen – sonst ist das Momentum weg.
Oliver Shoulson: Ja, wir machen im Gespräch sogenanntes Backchanneling wie "mhm", "ja", "okay" zur Bestätigung. Fehlen diese, etwa nach der Durchgabe einer Telefonnummer, geraten LLMs ins Schleudern oder versagen komplett.
Bei Text-KIs kann man Zeit lassen. Beim Telefon muss alles Echtzeit sein und für die Verarbeitung in kleinen Portionen strukturiert werden. Sonst klappt der Dialog nicht.
Galen Low: Auf den Punkt gebracht: Timing wird oft unterschätzt – dabei ist es entscheidend. Die Technologie ist da manchmal noch nicht schnell genug.
Oliver Shoulson: Genau, man muss also (wie echte Menschen) auch Füllsätze einbauen: "Einen Moment, ich schaue mal nach…", um Pausen zu überbrücken und zu signalisieren, dass etwas passiert.
Galen Low: Gibt es Agenten mit "Ich-suche-eben-momentan-Hintergrundmusik?"
Oliver Shoulson: Lustig, tatsächlich haben wir mit echten Sprecher*innen gearbeitet, die mit ihren typischen Sprechpausen arbeiten, um zu zeigen, dass aktiv gearbeitet wird.
Damit kommen wir zum zweiten Bereich: Die feinen Regeln der Sprache, sogenannte Pragmatik – also wie Sprache im Kontext funktioniert. Da gibt es unbewusste Annahmen: Der Gesprächspartner ist ehrlich, gibt nur so viele Infos wie nötig (nicht mehr, sonst wird impliziert). LLMs tendieren dazu, alles zu erklären. "Um Ihr Konto zu finden, brauche ich Ihre Nummer. Können Sie mir die bitte geben?" Oder bei Anleitungen: "Klicken Sie oben rechts auf das Profil-Icon, sagen Sie mir kurz Bescheid, wenn Sie das erledigt haben."
Solche Meta-Anweisungen sind im echten Gespräch schnell übergriffig oder wirken, als hielte man das Gegenüber für unfähig. Das nervt – und zerstört das Gefühl gemeinsamen Agierens, der sozialen Präsenz. Wenn die KI Kontext nicht teilt, ist der Mensch raus aus dem Dialog.
Galen Low: Viele Designer denken: Mehr Worte bauen mehr Vertrauen auf – dabei bewirken sie das Gegenteil, weil die Pragmatik (gemeinsamer Kontext) ignoriert wird.
Das ist wie bei einem LLM, das mir zum 20. Mal "Schön, dich kennenzulernen!" sagt, obwohl wir längst im regelmäßigen Austausch stehen. Dieser fehlende Kontext nervt und macht das Erlebnis künstlich.
Oliver Shoulson: Exakt.
Galen Low: "Weniger ist mehr" wäre also das Prinzip?
Oliver Shoulson: Absolut.
Galen Low: Es darf gern auch erklärbar bleiben ("Warum brauchen Sie die Kontonummer?"), aber das Standarderlebnis ist besser knapp und natürlich als übererklärend oder zu freundlich.
Oliver Shoulson: Genau. Ob und wie man sich als Bot bekennt, ist eine Einzelfallentscheidung. Offenheit ist gut, aber die Einführung sollte möglichst menschennah und kurz sein – nicht wie "Achtung, Sie sprechen jetzt mit einem AI Assistant".
Das erste Utterance sollte einfach und offen sein: "Hallo, ich bin Oliver. Ich bin der virtuelle Assistent von XY. Wie kann ich helfen?" – und dann möglichst knapp. Weniger ist auch hier mehr.
Galen Low: Sehr guter Punkt. Und du meintest in einem früheren Gespräch: Es geht nicht darum zu täuschen, sondern ein natürliches Gesprächsgefühl zu vermitteln, damit das Gehirn an der Sache arbeiten kann, nicht an der Bedienung.
Oliver Shoulson: Genau. Es gibt keinen Preis für Täuschung! Wer ein Telefonmenü bekommt, fängt an, zu raten: "Ist mein Anliegen unter Account-Problem oder…?" Du verschwendest kognitive Ressourcen daran, in das System hineinzudenken – statt dich auf dein Problem (z. B. Passwort-Reset) zu konzentrieren. Ziel ist, so natürliche Interaktion zu bieten, dass Menschen ihre Intuition nutzen können und ihr Gehirn nicht an die Bedienung verschwenden.
Galen Low: Das ist das Ziel von UX: Komplexität rausnehmen, Friktion beseitigen. Aber warum ist Sprache überhaupt so schwer richtig zu designen?
Oliver Shoulson: Das ist im Grunde die Kernfrage der Linguistik: Wie modellieren wir die menschliche Sprachfähigkeit so, dass sie programmierbar wird?
Ein Kind ist mit vier Jahren – bei minimaler Exposition – komplett sprachkompetent. Ein LLM braucht Millionen Mal mehr Sprachinput, um auch nur annähernd ähnlich zu performen. Das zeigt: Unser Gehirn hat spezielle Architektur für Sprache.
Das jüngste KI-Update ist ein reiner Brute-Force-Ansatz: Extrem viele Parameter und der komplette Internet-Text liefern fast-menschliche Ergebnisse. Trotzdem stehen wir weit vor den Fähigkeiten der natürlichen Sprache, vor allem beim schlussfolgernden Denken.
LLMs sind für das Weitertexten gebaut, nicht fürs abstrakte Denken oder echte symbolische Verarbeitung wie Menschen es tun. Deshalb werden wir irgendwann nicht mehr viel durch bloßes Größer-Trainieren erreichen – sondern müssen auf symbolisches Denken umschwenken.
Das war jetzt etwas philosophisch – aber wichtig.
Galen Low: Absolut. KI ist heute beeindruckender Party-Trick, aber kein abgeschlossener Durchbruch. Sprache bleibt komplex, das Gehirn ebenso. Es gibt nicht den einen Code-Knackpunkt – aber man kann lernen, damit besser umzugehen.
Jetzt die Frage: Für Teams, die visuell entwickeln – was brauchen sie beim Umstieg auf Conversation/Voice Design?
Oliver Shoulson: Die nötigen Fähigkeiten sind unterschiedlich, müssen aber nicht exklusiv sein.
Information nehmen wir visuell und sprachlich sehr verschieden auf. Visual Designer arbeiten mit zweidimensionaler Flächenhierarchie. Im Sprachlichen erleben wir Information linear als Klang, die unser Gehirn nachher strukturiert. Daraus entstehen Mehrdeutigkeiten – etwa bei "Ich habe den Mann mit dem roten Fernglas gesehen" (wer hatte das Fernglas?).
Deshalb sollte man nicht nur visuelle Designer, sondern auch die -Erfahrenen im sprachlichen Bereich einbinden: Callcenter-Mitarbeiter, Autoren von Gesprächsleitfäden.
Für Conversation Designer sind reale Shadowing-Tage im Contact Center die wertvollste Erfahrung: Wie stellen Menschen ihre Fragen? Welche Muster? Welche Formulierungen und Bedürfnisse gibt es wirklich?
Diese Erfahrung im Team zu nutzen, ist der goldene Weg.
Galen Low: Stimmt. Es ist eine andere Disziplin, und viele Prinzipien lassen sich übertragen – aber Zuhören und Analyse sind essenziell. Heißt: Man muss kein Linguist werden, aber die Skills und die Daten der echten Gesprächspartner nutzen!
Oliver Shoulson: Genau. Soft Skills wie Empathie, Sensitivität und Analysefähigkeit helfen enorm bei der Entwicklung von Conversational Interfaces. Das macht Linguist*innen stark in diesem Feld, aber auch Designer können diese Skills einsetzen.
Galen Low: Abschließend ein Blick in die Zukunft: Was passiert, wenn meine persönliche KI auf den Firmen-Agenten trifft? Reden die dann auch noch in Höflichkeitschoreografie miteinander – oder kommunizieren Agenten untereinander auf für Menschen völlig unverständliche Weise?
Oliver Shoulson: Ich weiß es nicht. Bestehende Modelle sind für den Dialog mit Menschen optimiert – sie würden also weiter wie im echten Gespräch reagieren. Mit der Verbreitung von Multi-Agent-Frameworks wie OpenClaw könnte es aber spezielle Agenten geben, die eher "beep-boop", also maximal effizient Informationen austauschen.
Galen Low: Eine wunderbare Ineffizienz liegt in der Sprache – gerade das Unperfekte macht das Menschliche aus. Maschinen brauchen das vielleicht nicht – noch steht das aber in unserer Hand.
Danke für das Eintauchen in diese Sci-Fi-Frage! Gibt es etwas, das du mich fragen möchtest?
Oliver Shoulson: Mich interessiert, ob du an KI-Hardware glaubst. Wird sich das wirklich durchsetzen? Eigentlich haben wir doch alle schon ein Smartphone...
Galen Low: Ich glaube, dass die Wirtschaft immer neue Devices pushen wird – aber tatsächlich ist der praktische Mehrwert oft gering. Viele Tools sind nur Hype. Es wird mehr als nur Smartphones geben, aber nicht im Sinne eines "Pagers am Gürtel". Vielleicht robotische Assistenten in ferner Zukunft – aber das bleibt abzuwarten.
Oliver Shoulson: Faszinierend, wie unser "Urhirn" immer noch auf spezielle Geräte setzt – dabei ist alles softwarebasiert auf dem Handy möglich.
Galen Low: Das erinnert mich an Cargo-Pants: Damals nützlich, um alles zu tragen – heute brauchen wir weniger. Vielen Dank, Oliver, für das tolle Gespräch!
Wo kann man mehr über dich erfahren?
Oliver Shoulson: Ihr findet mich auf LinkedIn @oliverhs. Meine Website ist olivershoulson.com, dort poste ich gelegentlich. Schaut auch auf poly.ai vorbei – da gibt’s spannende Fallstudien, z. B. auch "Selma" im Einsatz!
Galen Low: Super, die Links sind natürlich in den Shownotes! Nochmals vielen Dank, Oliver.
Oliver Shoulson: Vielen Dank.
Galen Low: Das war’s mit dieser Episode des Digital Project Manager Podcasts. Abonniere unbedingt, wenn dir das Gespräch gefallen hat, und für noch mehr Insights, Case Studies und Playbooks erstelle ein kostenloses Konto unter thedigitalprojectmanager.com.
Bis zum nächsten Mal und danke fürs Zuhören.
