Que se passe-t-il lorsque l’IA cesse d’être un outil auquel on tape des commandes pour devenir quelque chose à qui l’on parle ? Dans cet épisode, Galen Low s’entretient avec Oliver Shoulson, Responsable de la conception et de l’ingénierie des agents chez PolyAI, afin de décrypter le problème étonnamment humain au cœur de l’IA conversationnelle : la plupart des conversations avec l’IA restent étranges.
Des scripts maladroits de chatbots aux personas excessivement polis à la “voix LLM” qui donnent l’impression d’avoir été formés par un comité de robots RH, Oliver explique pourquoi une bonne conception conversationnelle consiste moins à imiter parfaitement les humains qu’à lever les obstacles. La discussion aborde la psychologie de la confiance, la mécanique de la présence sociale, et pourquoi l’avenir des interfaces IA dépendra peut-être moins du design visuel que de la compréhension de la façon dont les gens parlent naturellement, interrompent, hésitent, clarifient et collaborent.
Ce que vous allez apprendre
- Pourquoi l’IA conversationnelle réussit ou échoue en fonction de la présence sociale et de la confiance
- Les défauts de conception cachés qui rendent les interactions avec l’IA étranges ou frustrantes
- Comment le timing, les interruptions et le rythme conversationnel modèlent l’expérience utilisateur
- Pourquoi l’IA vocale génère des comportements clients différents de ceux des chatbots textuels
- Le rôle des pragmatiques et du contexte partagé dans la conception de conversations naturelles
- Pourquoi le comportement “serviable” des LLM porte souvent atteinte à la confiance au lieu de la renforcer
- Comment les entreprises utilisent des voix d’IA de marque pour étendre l’expérience client
- Pourquoi la langue reste l’un des problèmes les plus complexes de l’IA malgré les récentes avancées
- Ce que les concepteurs visuels doivent repenser lorsqu’ils conçoivent des interfaces conversationnelles
- Comment la communication d’IA à IA pourrait évoluer au-delà des schémas linguistiques humains
À retenir
- La plupart des conversations avec l’IA échouent parce qu’elles demandent trop d’efforts aux utilisateurs
Une bonne conception conversationnelle supprime la charge liée à la navigation dans l’interaction elle-même. Comme l’explique Oliver, les utilisateurs ne devraient pas avoir à déchiffrer la logique de menu ou la structure conversationnelle d’un système d’IA juste pour résoudre un problème simple. Les meilleures interactions avec l’IA permettent aux gens de s’appuyer sur leurs réflexes conversationnels instinctifs, au lieu de les forcer à adopter des parcours rigides. - Les interactions vocales instaurent la confiance différemment des conversations textuelles
Les gens continuent à passer des appels téléphoniques car la conversation orale crée un plus grand sentiment de “présence sociale”. L’échange en temps réel accroit la confiance, l’adhésion et la confiance dans l’interaction. Ce n’est pas de la nostalgie, mais un conditionnement cognitif. - La “vallée dérangeante” de l’IA est souvent linguistique, pas visuelle
Le problème ne se limite pas aux voix synthétiques ou aux tournures robotiques. Il survient lorsque l’IA transgresse des normes conversationnelles subtiles que les humains remarquent à peine consciemment. Trop expliquer les demandes, décrire des étapes évidentes ou ignorer le contexte partagé brisent l’illusion d’une collaboration réelle. - Une IA “serviable” paraît souvent condescendante
Les grands modèles linguistiques sont entraînés pour être largement sûrs, consensuels et explicatifs. Mais dans les vraies conversations, trop d’explications peuvent suggérer de l’incompétence ou de la distance. Parfois, l’échange le plus naturel est simplement : “Quel est votre numéro de compte ?” Plutôt qu’une longue clause explicative sur la raison pour laquelle on le demande. - Le timing compte plus qu’on ne le pense
Les conversations humaines vont vite. Au-delà de quelques centaines de millisecondes, un délai devient perceptible. Concevoir une IA conversationnelle exige de tenir compte des interruptions, des pauses, des mots de remplissage et de la dynamique de prise de parole, que les humains gèrent de façon inconsciente. - Les conseillers en centre d’appel détiennent déjà la plupart des données de conception nécessaires
L’un des conseils les plus forts d’Oliver : passez du temps en immersion auprès des équipes de service client. Écoutez comment les gens posent réellement des questions, interrompent, clarifient et résolvent les problèmes. La majorité des organisations possède déjà les schémas conversationnels qu’elles cherchent à reproduire. - L’IA n’a pas besoin de tromper les utilisateurs pour être naturelle
Le but n’est pas la tromperie, mais de réduire la friction. Une conception conversationnelle naturelle permet aux utilisateurs de se concentrer sur la résolution de leur problème au lieu de chercher comment communiquer avec le système. - Nous atteignons peut-être les limites des modèles linguistiques à force brute
Oliver estime que les LLM actuels sont avant tout une prouesse technique, pas encore une compréhension pleine de la cognition humaine. Simplement agrandir ces modèles finira peut-être par atteindre un plafond, surtout concernant le raisonnement et la compréhension contextuelle. - Les agents IA du futur ne converseront peut-être plus comme les humains
À mesure que les systèmes IA dialoguent de plus en plus entre eux, les normes conversationnelles humaines pourraient disparaître. La politesse et les échanges successifs que nous associons au langage relèvent peut-être plus de la cognition humaine que du transfert d’information optimal.
Chapitres
- 00:00 — Pourquoi les conversations avec l’IA semblent étranges
- 02:33 — IA, sites web et navigation
- 06:30 — Voix vs. design visuel
- 10:33 — Où fonctionne l’IA vocale aujourd’hui
- 13:35 — Corriger la “voix LLM”
- 16:37 — Pourquoi les gens continuent d’appeler
- 20:06 — Présence sociale et confiance
- 22:12 — Éthique conversationnelle
- 25:38 — Erreurs fréquentes dans la conception des IA
- 31:06 — Tempo et rythme dans la conversation
- 33:40 — Pourquoi trop expliquer détruit la confiance
- 40:16 — Conception de conversations naturelles
- 42:22 — Pourquoi le langage est difficile pour l’IA
- 46:53 — Concevoir pour les interfaces vocales
- 51:06 — IA parlant à l’IA
- 54:11 — L’avenir du matériel IA
Faites connaissance avec notre invité

Oliver Shoulson est responsable de la conception et de l’ingénierie des agents chez PolyAI, où il contribue à la conception et au développement de systèmes d’IA conversationnelle avancés, permettant des interactions clients naturelles et humaines pour des grandes entreprises internationales. Grâce à une expérience dans l’ingénierie de l’IA, les systèmes de dialogue et le design centré utilisateur, Oliver se spécialise dans le lien entre l’innovation technique et l’utilisabilité réelle pour créer des expériences vocales et conversationnelles évolutives. Il est passionné par l’avenir de l’IA conversationnelle et la manière dont les agents intelligents peuvent transformer le service client, l’efficacité opérationnelle et l’interaction homme-machine.
Ressources évoquées dans cet épisode :
- Rejoignez la communauté Digital Project Manager
- Abonnez-vous à la newsletter pour recevoir nos derniers articles et podcasts
- Retrouvez Oliver sur LinkedIn
- Découvrez le site web d’Oliver
- Rendez-vous sur PolyAI
Articles et podcasts associés :
Galen Low : Bonjour, je suis Galen, l’avatar hôte virtuel du podcast Digital Project Manager, propulsé par l’IA agentique. Je plaisante. Mais parieriez-vous que votre perception de ce podcast serait différente si vous pensiez que je n’étais qu’une IA ? C’est justement le sujet d’aujourd’hui : les principes définissant ce qui rend une interaction conversationnelle avec l’IA réussie, par opposition aux exemples ratés, frustrants, issus de la vallée de l’étrange et qui font le buzz sur Instagram.
En réalité, beaucoup d’entre nous sont chargés de créer des agents et des collègues IA, avec qui nos équipes et parties prenantes vont interagir, non seulement via le texte, mais aussi par la voix. Si ce que nous construisons ajoute trop de friction à l’expérience, ces outils risquent fort de finir aux oubliettes des expérimentations IA ratées.
Pour nous aider à concevoir de meilleures interactions avec l’IA, j’ai invité un expert en conception conversationnelle. Ensemble, nous allons décrypter le retour sur investissement de la création d’expériences vocales humaines et fluides avec l’IA, explorer les limites où ces efforts de design rencontrent un rendement décroissant et dévoiler comment des ajustements subtils permettent de s’éloigner de cette voix d’IA grande langue modèle, trop serviable et mielleuse, que l’humain commence à détester.
Bonne écoute !
Bienvenue dans The Digital Project Manager Podcast—l’émission qui aide les chefs de la livraison à travailler plus intelligemment, à fluidifier leurs projets et à diriger leurs équipes avec assurance à l’ère de l’IA. Je suis Galen, et chaque semaine, nous plongeons dans des stratégies concrètes, tendances émergentes, cadres éprouvés et même quelques récits de bataille du front des projets. Que vous pilotiez de grandes transformations, gériez des flux IA ou essayiez simplement de garder le contrôle du chaos, vous êtes au bon endroit. On y va !
Aujourd’hui, nous parlons du rôle de la conception conversationnelle dans la construction de la confiance avec l’IA. Nous aborderons les principales erreurs que les équipes commettent dans la création d’expériences IA pilotées par la conversation, et comment les corriger. On va aussi débattre de la complexité du langage pour l’IA et faire quelques prédictions sur la façon dont les IA parleront entre elles à l’avenir.
Mon invité du jour est Oliver Shoulson, responsable de la conception et de l’ingénierie des agents chez PolyAI. Oliver est linguiste et leader reconnu dans le domaine de l’IA conversationnelle, à l’intersection du langage, du design produit et de l’IA. À Yale, il s’est spécialisé dans la variation syntaxique, étudiant la manière dont les locuteurs construisent et ordonnent différemment les phrases, toujours dans le respect des règles structurelles du langage. C’est d’autant plus pertinent aujourd’hui que, chez PolyAI, Oliver aide les équipes à dépasser les scripts raides et l’effet vallée de l’étrange pour inventer des interactions vocales naturelles et utiles avec l’IA.
Oliver, merci d’être avec nous aujourd’hui.
Oliver Shoulson : Merci beaucoup, c’est un plaisir d’être là.
Galen Low : Ce sujet me passionne. Nos discussions préparatoires étaient géniales : ça m’a permis d’assouvir mon côté nerd. J’ai fait un peu de grammaire anglaise et de linguistique à la fac, et ça m’a toujours fasciné. Finalement, je me suis orienté vers le cinéma. Mais avec la montée de l’IA et des chatbots, toutes ces interactions plus fluides, moins rigides, m’ont vraiment redonné envie de m’y plonger. Dès que j’ai entendu parler de toi, je me suis dit : « Il faut absolument que je lui parle. »
Merci ! J’espère qu’on abordera plein de sujets. Il y a des dizaines de pistes à creuser, mais je suis chef de projet, alors, au cas où, voici le plan de route du jour :
Pour commencer, j’aimerais ouvrir avec une grosse question, celle que mes auditeurs attendent. Ensuite, je voudrais prendre un peu de recul et parler de trois points. D’abord, pourquoi les interactions vocales avec l’IA sont importantes et comment elles ont un impact concret pour les entreprises et les utilisateurs aujourd’hui. Ensuite, qu’est-ce qui fait qu’une expérience conversationnelle est réussie, et comment les équipes peuvent éviter la fameuse vallée de l’étrange. Enfin, avoir ton avis sur le futur du design d’interaction et sur la possibilité que le visuel devienne secondaire face au langage conversationnel. Ça te va ?
Oliver Shoulson : Ça me va parfaitement.
Galen Low : Super, on y va. Je voulais ouvrir avec cette fameuse grande question, en prenant un peu d’élan car, dans mon réseau, je côtoie surtout des professionnels du digital, ceux qui créent des sites web, des campagnes marketing digitales ou des stratégies de transformation numérique.
Donc nos oreilles se sont dressées quand on a vu passer les gros titres annonçant la transformation radicale des sites web grâce à l’intégration de l’IA à la navigation — survols IA, navigateurs IA, copilotes IA, etc.
Donc ma question : dans combien de temps la conversation remplacera-t-elle la navigation sur Internet, et qu’est-ce qui pourrait freiner cela ?
Oliver Shoulson : Oui, il est certain que la façon dont on conçoit les pages web et Internet en général va être adaptée pour faciliter l’accès aux agents IA. C’est inévitable. Cela augmentera l’efficacité avec laquelle nos assistants peuvent accomplir des tâches à notre place. Cela dit, je ne sais pas si j’ai envie, ni si les gens que je connais ont envie d’un Internet purement conversationnel, sans interface visuelle.
Je crois que la tâche des designers d’interface, qu’ils travaillent sur le conversationnel ou sur le visuel, est d’utiliser leur compréhension des biais cognitifs et de l’architecture cognitive humaine pour rendre intuitives les interfaces du monde numérique.
Cela fait longtemps que de brillants designers d’UI trouvent le moyen de simuler des interactions physiques (barres de défilement, interrupteurs, boutons…) pour rendre la navigation numérique intuitive car notre cerveau y est déjà habitué. Et grâce au conversationnel, c’est la même chose mais via une autre partie de notre architecture cognitive : le langage. Jusqu’à récemment, il était impossible de simuler cela de façon naturelle.
La percée des grands modèles de langue, c’est justement d’avoir réussi, avec assez de données et d’entraînement, à produire une langue humaine convaincante pour la première fois. C’est une nouvelle façon d’interagir — mais il n’y a pas forcément de supériorité du conversationnel sur le visuel. C’est simplement une expérience différente.
Galen Low : J’aime beaucoup ce parallèle avec les objets du monde réel, même si, digitalement, je n’y pense pas toujours. Il y a effectivement des accessoires physiques qu’on retrouve sous forme de boutons, cases à cocher, sliders, etc., dans le numérique, car notre cerveau y est déjà formé.
Et pareil pour la faculté de langage : elle peut servir l’expérience, mais sans forcément remplacer le reste. Ce sont juste de nouveaux outils à notre disposition.
Oliver Shoulson : Oui. Je suis moi-même très visuel, artiste à mes heures perdues d’ailleurs.
Galen Low : Ah oui ?
Oliver Shoulson : Du coup, je serais assez triste si le design web et graphique passait au second plan après la conversation. Ce n’est pas le but, ni pour moi en tant que designer conversationnel, ni pour personne je pense. Ce sont deux disciplines qui ont besoin de compétences différentes et qui peuvent coexister.
Galen Low : Ce qui me frappe, c’est cette angoisse : aujourd’hui les gens ne vont plus vraiment sur les sites, or tout un pan de l’économie du web repose sur leur visite. On voit arriver des outils comme les IA overviews qui sont une sorte de « site intermédiaire » hors du contrôle du propriétaire et qui propose une interaction différente de l’intention initiale, quitte à résumer l’expérience. Un mot là-dessus ? Est-ce un compromis ? Une bonne chose ?
Oliver Shoulson : Je n’y avais pas tant réfléchi, donc je réponds un peu à chaud. J’espère qu’une couche intermédiaire, si elle devient standard, sera aussi maîtrisée par les entreprises. La personnalisation de l’expérience conversationnelle est une opportunité supplémentaire pour affirmer l’identité de marque — comme elles le font depuis longtemps sur le visuel. La crainte de voir l’identité se perdre ou être déformée par le résumé IA, je la comprends. Je pense que les agences web vont trouver d’autres moyens d’exercer ce contrôle sur cette couche intermédiaire IA que tu évoques.
Galen Low : Exactement, la voix de marque fait partie intégrante de l’expérience. On ne veut pas d’un assistant qui résumerait le site sans tenir compte de l’intention initiale. C’est un bon pont avec ton travail chez PolyAI, où vous concevez des expériences utilisateur IA vocales, qui remplacent parfois la présence d’un humain : pour répondre au téléphone d’un restaurant ou d’une clinique, par exemple.
Qu’observez-vous chez PolyAI sur la valeur que l’IA vocale apporte — et en quoi c’est fondamentalement différent des chatbots classiques ?
Oliver Shoulson : Demande à n’importe quel responsable centre d’appels : les gens continuent à téléphoner. Peut-être que tu n’aimes pas ça, moi non plus d’ailleurs, mais le téléphone reste un canal majeur du support client. Donc l’un des grands apports d’une solution vocale, tu l’as deviné, c’est la gestion des périodes de forte affluence et du turnover côté agents.
Par exemple, l’un de nos clients historiques, un grand retailer, connaît son pic lors du Black Friday. Depuis qu’il travaille avec nous, ses agents ont pu prendre ce jour-là en plus de Thanksgiving — une première pour eux !
Galen Low : Impressionnant !
Oliver Shoulson : Cela bénéficie donc au client final, à notre client, mais aussi aux agents eux-mêmes. Chez Poly, ma mission c’est de compléter le travail humain, pas de le remplacer. Il existera toujours des problèmes qui nécessitent une approche humaine, mais la majorité des appels concerne les mêmes 20 % de motifs, et en automatisant ce 20 %, on soulage fortement la pression sur les équipes.
Autre point : la voix permet de créer une expérience vraiment “de marque”, plus intéressante que le texte à l’écran. Un exemple ? Pour Fogo de Chão, une chaîne de restaurants brésiliens, nous avons cloné la voix de Selma, responsable expérience client, présente dans l’entreprise depuis des décennies. Désormais, c’est “Selma” qui répond au téléphone pour les réservations, informations de fidélité, etc. Ça permet d’incarner la marque bien mieux qu’un texte ou une voix générique IA, et d’offrir à Selma une capacité d’action démultipliée.
Galen Low : C’est amusant, tu évoques la voix LLM : tout le monde voit de quoi tu parles. Même si la techno progresse, c’est encore une “voix” assez générique, parfois trop gentille, trop serviable — pas du tout personnalisée comme pouvait l’être Selma ! Pour quelqu’un qui veut construire ce genre d’agent, comment injecter la personnalité de quelqu’un comme Selma ? Est-ce laborieux ?
Oliver Shoulson : Pour la voix en tant que telle, il faut enregistrer un certain nombre de données afin d’entraîner un modèle personnalisé capable d’imiter son accent, ses tics de langage, etc. Mais c’est surtout au niveau de la conception conversationnelle qu’on façonne la personnalité : on travaille la génération, la récupération d’informations, les garde-fous conversationnels pour contrôler ce que le modèle produit. On dispose de leviers nombreux pour sortir de la voix LLM standard, et l’avantage des modèles maison, c’est cette sensibilité aux consignes de persona et de style conversationnel, au-delà du simple suivi d’instructions. Cela évite de tomber dans une expérience fade ou robotique.
Galen Low : Intéressant : d’habitude, “garde-fous” renvoie à la sûreté ou l’éthique, mais là c’est aussi la protection de la personnalité ! Il s’agit de tracer des limites : autant sur la marque et la persona que sur la sécurité ou la confidentialité.
Oliver Shoulson : Exactement, les garde-fous protègent aussi l’identité de marque que l’entreprise a mis des années à forger. Il faut éviter que l’IA n’en dénature le ton ou l’essence, et c’est un aspect crucial de notre travail.
Galen Low : Pour revenir à ce que tu disais : les gens tiennent à pouvoir téléphoner. Je ressens la même chose que toi — je n’aime pas tellement ça, c’est imprévisible, ça manque de contrôle. Mais pourquoi donc le téléphone n’est-il pas devenu une relique comme le fax ? Qu’est-ce qui pousse tant de personnes à préférer l’appel ?
Oliver Shoulson : Il existe dans l’interaction humain-machine un vieux concept, la présence sociale. C’est ce sentiment d’être avec quelqu’un, d’être relié en temps réel, qui a fait l’objet de nombreuses études. On sait que plus la présence sociale est forte, meilleurs sont les indicateurs d’expérience client ou d’adhésion aux conseils reçus, donc moins d’échecs suite à des instructions mal comprises, plus de satisfaction, et un ressenti de confiance dans la gestion de leurs données sensibles. Les clients cherchent cet effet de présence sociale, qui se place sur un spectre : le face-à-face en étant l’apogée, puis la visio, le téléphone ensuite, et la messagerie texte en étant le minimum. Les gens veulent ce sentiment de vraie interaction en direct.
Galen Low : Intéressant : l’absence de présence sociale explique sans doute pourquoi, par exemple, en lisant des e-mails, je suis moins attentif, je survole, j’exécute mal les consignes car je ne ressens pas d’engagement, de “prise en charge”. Tandis qu’en direct, il y a une responsabilité, une considération réelle voire de la bienveillance. Et ça construit la confiance, la fidélité — le tout favorisé par un bon design conversationnel.
Oliver Shoulson : Oui, d’ailleurs le design ne se limite pas au canal ! On travaille à éviter l’impression de réponses toutes faites, sans naturel, sans collaborativité en temps réel. Les LLM à l’état brut peuvent dégrader ce sentiment de présence, rendant l’IA distante, impersonnelle, un peu “étrange”. Le design est donc primordial, quel que soit le média.
Galen Low : C’est d’autant plus vrai que ChatGPT et autres visent à tout faire pour tous, en maximisant l’adoption et la collecte de données. Leur voix sera donc neutre, consensuelle, adaptée à tous les contextes — sécurité mentale ou simple service — et donc, un peu fade. Il a d’ailleurs été amusant d’observer combien de gens entraînaient leur LLM à être “un peu méchant”, car ils ne voulaient pas forcément cette interaction rassurante par défaut ! On a donc un outil fondamentalement “vanille” par design.
Oliver Shoulson : Oui, et c’est bien que seuls les LLM subissent les propos négatifs des clients au lieu des humains, mais en tant que designer, on aimerait tout de même que même un LLM soit capable de poser ses limites. Personne ne veut écouter toute la journée des clients insultant une IA qui encaisse sans broncher — ce n’est pas bon pour l’humanité. Nous devrions promouvoir de bonnes pratiques de conversation, au-delà du simple réalisme.
Galen Low : Absolument, on finit par normaliser ce genre de comportements, tout comme les insultes sur YouTube ou autres. La politesse et la bienveillance ne doivent pas disparaître, même si ce n’est “que” de l’IA… D’ailleurs, faut-il dire “merci” à un LLM ?
Oliver Shoulson : Intéressant question sociolinguistique ! Je suis certain que des recherches existent ou sont en cours sur ce que l’interaction avec une IA préfigure ou influence dans le rapport aux humains. Je préfère ne pas spéculer plus sans éléments sérieux, mais c’est un sujet de thèse passionnant.
Galen Low : Pour la plupart, ce sont encore des éditos, mais oui, il y a forcément des chercheurs là-dessus. Peut-être un bon pont parce que, toi qui es linguiste, tu dois observer beaucoup de tentatives (réussies ou non) pour créer des IA “naturelles”, qui ne cringent pas. Et beaucoup se plantent, surtout dans le digital et la gestion de projet : “allez, créons un agent IA” — mais on n’est pas linguistes… Quelles erreurs de conception vois-tu le plus souvent, et lesquelles créent ce “sentiment bizarre” chez l’utilisateur ?
Oliver Shoulson : D’abord, il faut parler des bases, qui conditionnent tout le reste. L’oralité, c’est du direct, avec interruptions, corrections, recoupements. Les prises de parole sont rapides : deux ou trois centièmes de seconde d’intervalle maximum. Comme une IA vocale implique reconnaissance vocale, génération de texte, puis synthèse vocale, le délai cumulé est souvent bien supérieur — parfois trois secondes par tour, loin des dialogues humains. Si je ne peux pas interrompre ou si l’IA ne peut pas me corriger, on perd le naturel, et l’utilisation devient pesante, laborieuse. La gestion du “tour de parole” est donc cruciale — aussi bien pour l’utilisabilité que pour éviter la vallée de l’étrange.
Autre frein : à l’écrit, on a l’historique, on peut scroller ; en oral, on fonctionne sur la mémoire immédiate. Les LLM sont entraînés sur du texte long, hiérarchisé, ce qui n’est pas adapté au dialogue temps réel où l’on décompose souvent les informations : “avez-vous de quoi noter ?”, “je vais attendre”, “OK c’est quoi l’adresse ?”, on épelle, etc. — une succession de micro-tours absents du chat.
Voilà pour la “technique”. Mais il y a aussi l’aspect langage. Les humains suivent des règles implicites de collaboration linguistique (pragmatique). On attend de son interlocuteur qu’il dise la vérité, qu’il donne juste l’information utile — ni trop, ni pas assez —, toute sur-explication étant reçue comme une remise en cause de l’intelligence de l’autre. Les LLM expliquent tout, tout le temps : “Pour accéder à votre compte, il me faut numéro et date de naissance…” — c’est trop, et ça casse le sentiment d’engagement partagé.
La même chose avec les “petites attentions” humaines (back channels) : dire “mmh”, “oui”, “d’accord” en réaction, laisser des blancs ou des “je cherche dans le système…” (comme on fait en vrai). Il faut entraîner l’IA à ces signaux qui paraissent anodins mais qui sont essentiels à la fluidité. Sinon, confusion garantie !
En bref, la temporalité, les fillers, la non-sur-explication, la rétroaction — tout cela est fondamental.
Galen Low : Je n’aurais même pas pensé au rythme du dialogue ! Je tape surtout dans un LLM, et là je peux m’absenter, revenir après. Mais cela change tout en vocal : il faut une vraie dynamique d’échange, avec des signaux, des pauses… Ce sont vraiment des petits détails qui font le naturel.
Oliver Shoulson : Exactement. Le “back channeling” (“mmh”, “ok”) est central. Si je te demande ton numéro, tu vas le donner en trois morceaux, et attendre un “oui” à chaque étape ; sans ça, tu te bloques. Idem pour les fillers (“attends, je regarde…”, “ok…”). Ce sont des signaux d’activité qui rassurent, aussi bien en live que lors de l’enregistrement de voix d’acteur. Les linguistes appellent cela la pragmatique : comment on utilise concrètement le langage, quelles implicatures on génère, etc.
La tendance des LLM à tout sur-expliquer ruine ce sentiment de complicité, d’intelligence partagée. Demander des confirmations (“prévenez-moi quand vous avez cliqué”) sur chaque instruction, c’est transmettre (malgré soi) le message que l’autre n’est pas capable, et casser la confiance.
Galen Low : Beaucoup croient bien faire en ajoutant des “mots” pour rendre l’IA plus digne de confiance… alors qu’on obtient l’effet inverse. Et l’effet “bonjour, ravi de faire votre connaissance” à chaque prompt, alors qu’on travaille ensemble depuis des semaines, c’est très déstabilisant : on sent qu’il manque le contexte partagé, et ça casse l’expérience. Donc parfois, moins en dire, c’est mieux !
Oliver Shoulson : Exactement.
Galen Low : Parfois, il suffit d’être juste humain dans ses formulations, quitte à expliquer uniquement si on vous le demande. On bâtit plus de confiance ainsi.
Oliver Shoulson : 100 %. Je n’ai pas d’avis tranché sur l’obligation d’annoncer dès le début que c’est un agent virtuel, IA ou non. Mais il faut le faire de manière naturelle, pour ne pas rendre l’expérience froide. Par exemple : “Bonjour, je suis Oliver, assistant virtuel de telle entreprise. Que puis-je faire pour vous ?” Ou encore “Bonjour, je suis l’IA de...” et garder la présentation simple et ouverte. Moins c’est long, plus c’est efficace.
Galen Low : Oui, car le but n’est pas de tromper, mais de libérer l’utilisateur du problème de “comment utiliser le système”, pour qu’il se concentre sur sa vraie tâche, et non sur la navigation du menu — tout ce que l’UX combat depuis des années ! La conversation, grâce à notre intuition linguistique, facilite cela (à condition qu’elle soit bien conçue), en laissant la personne focaliser son cerveau “résolution de problème” sur son objectif, pas sur l’interface elle-même.
Oliver Shoulson : On veut justement que les gens se servent de leurs intuitions langagières, pour que leur effort cognitif serve à résoudre leur problématique, pas à déchiffrer le design ou la structure du système.
Galen Low : C’est pour ça, alors, que le langage réapparaît comme l’outil idéal… même si c’est paradoxalement aussi ce qui le rend si dur à simuler correctement ?
Oliver Shoulson : C’est la question fondamentale de la linguistique : comment modéliser cette faculté humaine du langage, pour éventuellement la reproduire informatiquement ? Un enfant acquiert le langage avec une exposition minime, alors qu’un grand modèle de langue a besoin d’une quantité massive de données. Cela montre à quel point notre cerveau est prédisposé pour cela. Les modèles actuels sont une prouesse d’ingénierie “brutale” : on expose des milliards de paramètres à tout l’internet, et on parvient à simuler partiellement ce que fait un enfant de trois ans. On n’a pas résolu le problème du langage, mais on a une approche utilisable. À terme, il faudra explorer des IA qui modélisent le raisonnement symbolique, celui des humains. Car la méthode LLM avec toujours plus de données finira par atteindre un plafond, surtout pour le raisonnement ou l’absence d’erreurs basiques. On devra alors inventer autre chose, bien plus proche du fonctionnement cognitif humain.
Galen Low : C’est essentiel de s’en rappeler : l’IA actuelle n’en est qu’à ses débuts. Elle fascine, elle bluffe, mais on n’a pas encore cassé le “code” du langage. C’est normal de rencontrer des difficultés. Ce n’est ni la faute des concepteurs, ni la vôtre si votre agent IA n’est pas parfait au premier essai : le langage humain est extraordinairement complexe.
Alors, pour des équipes habituées au design visuel, quelle est la plus grande différence de perspective lorsqu’on aborde la conception vocale et conversationnelle ?
Oliver Shoulson : Ce sont tout simplement des compétences différentes — mais complémentaires. Notre rapport à l’information n’est pas le même selon qu’elle est visuelle ou linguistique. En design d’interface, on travaille l’organisation hiérarchique spatiale ; à l’oral, on la découvre linéairement, dans le temps, et notre cerveau reconstruit cette hiérarchie. Le langage parlé est plus ambigu, il y a beaucoup de sous-entendus. Exemple classique : « J’ai vu l’homme avec les jumelles rouges. » — qui était rouge ? Celui qui regarde ou la cible ? La même phrase peut se comprendre de deux façons à cause de la structure linéaire.
Ma recommandation : appuyez-vous sur vos ressources internes ! Ce sont les agents de centre d’appels et les rédacteurs de scripts qui connaissent les vrais besoins — pas seulement ce que l’entreprise suppose. Passer une journée à écouter les conversations réelles est une mine d’or pour dessiner des dialogues fluides et efficaces.
Galen Low : Ça me parle ! Il ne s’agit pas de “devenir linguiste” pour bien concevoir du conversationnel, mais de questionner ses ressentis, d’analyser pourquoi une interaction sonne faux ou juste, et d’appliquer cette analyse, même sans diplôme en linguistique. On peut apprendre à construire de bonnes interfaces conversationnelles en se basant sur ses propres intuitions et sur l’observation terrain.
Oliver Shoulson : Exactement. Beaucoup de soft skills sont transférables. Ce qui fait la valeur d’un bon designer UX visuel, c’est aussi cette aptitude à analyser, déconstruire et formaliser ce qui provoque la satisfaction ou la gêne. C’est ce que font aussi les linguistes quand ils bâtissent leurs règles.
Galen Low : Pour finir, un mot sur le futur ? On voit émerger des appareils IA dédiés comme Rabbit, ou la rumeur d’un hardware OpenAI/Jony Ive. Va-t-on vers des agents qui discuteront entre eux, et si oui, conserveront-ils cette charade de politesse humaine — ou le dialogue IA-IA nous paraîtra-t-il méconnaissable ?
Oliver Shoulson : Difficile à dire, mais aujourd’hui, les modèles sont entraînés pour dialoguer avec l’humain avant tout. Donc tant qu’on utilise des LLM “grand public”, ils se comporteront comme s’ils dialoguaient avec une personne. Si demain on entraîne des IA spécialisées dans la communication inter-agent, il y aura probablement des protocoles bien plus efficaces, des échanges ultra-compressés, peut-être totalement incompréhensibles pour nous ! Mais ce n’est pas encore pour tout de suite.
Galen Low : Bonne remarque. Le langage humain est volontairement inefficace, imparfait, et c’est ce qui fait sa richesse. Mais les machines n’auront peut-être aucun intérêt à conserver ces codes-là. Merci beaucoup d’avoir exploré cette piste “SF” avec moi ! J’ai adoré cette discussion. À ton tour : une question pour moi ?
Oliver Shoulson : Justement : penses-tu que le hardware IA va réellement décoller ? Pourquoi devrais-je porter autre chose que mon propre smartphone ? J’ai du mal à voir ces appareils s’imposer, mais je peux me tromper…
Galen Low : Oui, bonne question ! Entre l’économie de l’innovation et la consommation, peut-être verra-t-on quelques différenciations, mais en pratique, je doute du besoin. On observe déjà ce phénomène dans les outils métiers, on s’équipe par effet de mode plus que par réelle utilité. Sans doute une mode, mais je ne vois pas une explosion au-delà du smartphone, sauf dans le cas (futuriste) de la robotique.
Oliver Shoulson : Il y a probablement dans le “besoin d’outil spécialisé” quelque chose de profondément archaïque — vouloir un objet pour une fonction précise au lieu d’un logiciel tout-en-un dans la poche !
Galen Low : Exact. Ça me rappelle la mode des pantalons cargo, “pour pouvoir transporter tous nos gadgets”… alors qu’aujourd’hui on en a moins !
Oliver Shoulson : Oui !
Galen Low : Génial. Oliver, merci pour ce moment, c’était passionnant et enrichissant.
Pour les auditeurs, où peut-on te suivre ?
Oliver Shoulson : Sur LinkedIn (@oliverhs), mon site web olivershoulson.com (je devrais le mettre à jour plus souvent…), et bien sûr sur poly.ai pour découvrir ce qu’on y fait. Vous pouvez notamment écouter “Selma” sur nos études de cas récentes.
Galen Low : Parfait, j’ajouterai tous les liens dans les notes de l’épisode ! Merci encore, Oliver.
Oliver Shoulson : Merci beaucoup !
Galen Low : Merci à tous pour votre écoute ! C’était un épisode du podcast The Digital Project Manager. Pensez à vous abonner, et pour plus de conseils, d’études de cas et de ressources pratiques, créez votre compte gratuit sur thedigitalprojectmanager.com.
À la prochaine, et merci d’avoir écouté.
